申请试用
HOT
登录
注册
 
多数据源一站式入湖
1 点赞
1 收藏
0下载
Apache Spark中国技术交流社区
/
发布于
/
343
人观看

第二课:10月27日 19:00
多数据源一站式入湖
讲师:彭志伟,花名空净,阿里巴巴技术专家

介绍:本讲主要介绍数据湖构建(DLF)产品一站式入湖能力以及如何通过DLF入湖模板的能力简单快速的将多种异构数据源一键实时入湖.

展开查看详情

1. 数据湖构建·Data Lake Formation 多数据源⼀站式⼊湖 彭志伟 · 阿⾥云 / 技术专家

2. 数据湖构建·Data Lake Formation 01 背景介绍 02 ⼀站式⼊湖 解决⽅案 03 ⽬录 >> 最佳实践 04 未来规划

3.01 ⼀站式⼊湖 背景介绍 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

4. 数据湖构建·Data Lake Formation 背景介绍 数据湖特性 • 集中化的数据存储仓库 • 数据来源多样性 • 数据结构多样性 • 计算存储分离架构

5. 数据湖构建·Data Lake Formation 多数据源⼊湖挑战 如何实现异构数据源统⼀⼊湖 满⾜数据⼊湖的时效性 ⽀持数据源的实时变更 提供⼀个简单可配置的 实现分钟级延迟的数据 ⽀持数据源update、 ⼀站⼈⼊湖⽅式. ⼊湖能⼒. delete等实时变更操作

6. 数据湖构建·Data Lake Formation CDC数据实时⼊湖 insert、update、delete binlog OSS 数据库 • 如何⽀持⽂件上的update、delete • 如何满⾜数据⼊湖的时效性 解决⽅案是什么?

7.02 ⼀站式⼊湖 解决⽅案 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

8. 数据湖构建·Data Lake Formation 解决⽅案 整体架构 DLF整体技术架构 ⼊湖模板 DLF提供的⼊湖模板

9. 数据湖构建·Data Lake Formation 整体架构 ⼊湖模板 定义⼊湖数据源和结果表相关信息 ⼊湖引擎 ⼊湖模板转换成引擎代码执⾏ ⽂件格式 ⽀持delta,parquet等格式 数据湖存储 数据湖数据集中存放在oss中

10. 数据湖构建·Data Lake Formation 整体架构 实时 binglog Spark Streaming SQL OSS ⽇志 批处理 Delta/Hudi/Parquet Spark SQL ots通道

11. 数据湖构建·Data Lake Formation ⼊湖模板 全量数据库模板 增量数据库模板 将数据库中的表数据全量同步到数据湖. 将数据库产⽣的binlog实时同步到数据湖 实时SLS模板 实时OTS模板 将SLS的⽇志实时同步到数据湖 将OTS中的数据实时同步到数据湖. OSS格式转换 将OSS中的不同格式进⾏转换,如 parquet,csv,delta等互转.

12. 数据湖构建·Data Lake Formation 全量数据库模板 主要场景 • 数据库全量数据⼊湖进⾏分析 • 时效性要求不⾼(T + 1/T + h) 主要功能 • ⽀持RDS mysql 5.x/8.x版本数据库 • ⽀持定时调度执⾏ • ⽀持delta、parquet、orc等格式

13. 数据湖构建·Data Lake Formation 增量数据库模板 主要场景 • 对数据库binglog数据⼊湖进⾏分析 • 时效性要求⾼(T + M) 主要功能 • 通过DTS订阅同步增量数据 • 分钟级的同步延迟 • ⽀持delta格式(hudi正在⽀持中)

14. 数据湖构建·Data Lake Formation 实时SLS模板 主要场景 • 对sls⽇志数据进⾏⼊湖分析 • 时效性要求⾼(T + M) 主要功能 • ⽀持按⽇志时间进⾏分区 • ⽀持delta格式(hudi正在⽀持中)

15. 数据湖构建·Data Lake Formation 实时OTS模板 主要场景 • 对OTS通道数据进⾏⼊湖分析 • 时效性要求⾼(T + M) 主要功能 • 提供分钟级的同步延迟 • ⽀持三种OTS通道的同步 • OTS全量通道 • OTS增量通道 • OTS全量+增量通道 • ⽀持delta格式

16. 数据湖构建·Data Lake Formation 模板实例管理

17.03 ⼀站式⼊湖 最佳实践 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

18. 数据湖构建·Data Lake Formation 增量数据⼊湖演示 演示DTS增量⼊湖的case

19. 数据湖构建·Data Lake Formation 数据湖格式转换演示 演示数据湖不同格式转换的case

20.04 ⼀站式⼊湖 未来规划 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

21. 数据湖构建·Data Lake Formation 未来规划 模板功能增强 1 2 更多数据源⽀持 ⼀库多表⽀持 ⽀持Kakfa、PolarDB、MongoDB ⽀持同时同步多张数据库表到数据湖中, 等数据源 包括离线和实时 3 4 ⾃定义预处理 平台能⼒建设 包括实时作业监控、告警、点位展示、 ⽀持⾃定义预处理逻辑 交互优化以及报错信息完善,提⾼可运维 性和易⽤性

22. 数据湖构建·Data Lake Formation 未来规划 数据湖格式优化 1 2 Hudi格式引进 Delta merge性能优化 ⽀持hudi格式,和数据湖元 优化delta merge实现机制,⽐如 数据打通 引进索引以及merge on read⽅式.

23. 数据湖构建·Data Lake Formation 加⼊数据湖构建产品交流钉钉群 关注数据湖技术微信公众号

1 点赞
1 收藏
0下载