实时数仓建设以及典型场景应用

议题:
实时数仓建设以及典型场景应用

简介:
本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用

讲师:
宋军,花名嵩林 阿里云EMR高级技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor


阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区

展开查看详情

1.7点开始 Apache Spark中国技术社区

2.实时数仓建设以及典型场景应⽤用 阿⾥里里云-E-MapReduce 嵩林林 2019.12.10

3.内容 1 2 实时数仓建设 典型场景应⽤用

4.实时数仓建设 Part I

5.实时数仓建设 实时⼤大盘 实时OLAP 监控告警 实时推荐 … 数据开发/BI/… 业务/客户 ? 离线数仓 实时数仓 数据中台 实时数仓建设 logs database

6.实时数仓建设 SparkStreaming SQL Druid 实时OLAP 数据应⽤用 SLS 轻度汇总 SLS Kafka DB Kafka Delta HBase 计算引擎 logs 报表 … Kudu MySQL ⼤大盘 … … Redis 数据模型 原始数据ODS … 明细数据DWD 数据应⽤用 ⾼高度汇总 ?

7.实时数仓建设 SparkStreaming SQL 详细⽂档: 批流统⼀一引擎 https://help.aliyun.com/document_detail/124684.html Streaming SQL https://yq.aliyun.com/articles/712650 丰富的SQL⽀支持 https://yq.aliyun.com/articles/720923 Structured Streaming CREATE TABLE / CREATE SCAN / CREAT STREAM / CTAS INSERT INTO / MERGE INTO SparkSQL SELECT / WHERE/ GROUP BY / JOIN / UNION ALL 丰富的UDF⽀支持 SparkCore Hive UDF / 窗⼝口函数 丰富的数据源⽀支持 Delta/Kudu/Druid/HBase/MySQL/Redis/SLS/Datahub/TableStore… sink Kafka Exactly Once Delta深度集成 ?

8.实时数仓建设 Delta Spark深度集成Delta https://issues.apache.org/jira/browse/SPARK-28303 事务⽀支持 Update/Delete/ 边写边读/更更新删除 DDL/DML/MergeInto Optimize/Vacuum Hive/Presto 元数据管理理 SparkStreaming SparkSQL SQL Schema演化/检查 Delta 数据质量量 TimeTravel ?

9.实时数仓建设 Delta Hive/Presto On Delta create external table deltatbl(name string, cnt string, city string, `date` string) row format serde 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' stored as inputformat 'io.delta.hive.DeltaInputFormat' outputformat 'io.delta.hive.DeltaOutputFormat' location 'hdfs://emr-header-1:9000/delta/events'; ?

10.典型场景应⽤用 Part II

11.典型场景应⽤用 CDC OLAP OLTP SparkStreaming SQL binlog Merge Into Kudu SparkSQL/Presto DB Kafka /Hive/Impala dts/canal/debezium/ UDF Parser maxwell OSS Delta Kafka Connector SparkStreaming SQL Table Store Delta 群⾥里里直播: Spark结合TableStore流批⼀一体⼤大数据架构 binlog 数据准确性保障 Streaming SQL⻔门槛低 OLAP多引擎⽀支持 binlog时序 exactly once

12.典型场景应⽤用 实时ETL Mysql Kafka Kafka 监控⽇日志 清洗 实时ETL HBase logs Kafka App⽇日志 Join/GroupBy/… Delta … Delta Druid … 实时⼤大盘/实时OLAP/…

13.谢谢!