- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
实时数仓建设以及典型场景应用
议题:
实时数仓建设以及典型场景应用
简介:
本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用
讲师:
宋军,花名嵩林 阿里云EMR高级技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor
阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区
展开查看详情
1 .7点开始 Apache Spark中国技术社区
2 .实时数仓建设以及典型场景应⽤用 阿⾥里里云-E-MapReduce 嵩林林 2019.12.10
3 .内容 1 2 实时数仓建设 典型场景应⽤用
4 .实时数仓建设 Part I
5 .实时数仓建设 实时⼤大盘 实时OLAP 监控告警 实时推荐 … 数据开发/BI/… 业务/客户 ? 离线数仓 实时数仓 数据中台 实时数仓建设 logs database
6 .实时数仓建设 SparkStreaming SQL Druid 实时OLAP 数据应⽤用 SLS 轻度汇总 SLS Kafka DB Kafka Delta HBase 计算引擎 logs 报表 … Kudu MySQL ⼤大盘 … … Redis 数据模型 原始数据ODS … 明细数据DWD 数据应⽤用 ⾼高度汇总 ?
7 .实时数仓建设 SparkStreaming SQL 详细⽂档: 批流统⼀一引擎 https://help.aliyun.com/document_detail/124684.html Streaming SQL https://yq.aliyun.com/articles/712650 丰富的SQL⽀支持 https://yq.aliyun.com/articles/720923 Structured Streaming CREATE TABLE / CREATE SCAN / CREAT STREAM / CTAS INSERT INTO / MERGE INTO SparkSQL SELECT / WHERE/ GROUP BY / JOIN / UNION ALL 丰富的UDF⽀支持 SparkCore Hive UDF / 窗⼝口函数 丰富的数据源⽀支持 Delta/Kudu/Druid/HBase/MySQL/Redis/SLS/Datahub/TableStore… sink Kafka Exactly Once Delta深度集成 ?
8 .实时数仓建设 Delta Spark深度集成Delta https://issues.apache.org/jira/browse/SPARK-28303 事务⽀支持 Update/Delete/ 边写边读/更更新删除 DDL/DML/MergeInto Optimize/Vacuum Hive/Presto 元数据管理理 SparkStreaming SparkSQL SQL Schema演化/检查 Delta 数据质量量 TimeTravel ?
9 .实时数仓建设 Delta Hive/Presto On Delta create external table deltatbl(name string, cnt string, city string, `date` string) row format serde 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' stored as inputformat 'io.delta.hive.DeltaInputFormat' outputformat 'io.delta.hive.DeltaOutputFormat' location 'hdfs://emr-header-1:9000/delta/events'; ?
10 .典型场景应⽤用 Part II
11 .典型场景应⽤用 CDC OLAP OLTP SparkStreaming SQL binlog Merge Into Kudu SparkSQL/Presto DB Kafka /Hive/Impala dts/canal/debezium/ UDF Parser maxwell OSS Delta Kafka Connector SparkStreaming SQL Table Store Delta 群⾥里里直播: Spark结合TableStore流批⼀一体⼤大数据架构 binlog 数据准确性保障 Streaming SQL⻔门槛低 OLAP多引擎⽀支持 binlog时序 exactly once
12 .典型场景应⽤用 实时ETL Mysql Kafka Kafka 监控⽇日志 清洗 实时ETL HBase logs Kafka App⽇日志 Join/GroupBy/… Delta … Delta Druid … 实时⼤大盘/实时OLAP/…
13 .谢谢!