- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
多数据源一站式入湖
第二课:10月27日 19:00
多数据源一站式入湖
讲师:彭志伟,花名空净,阿里巴巴技术专家
介绍:本讲主要介绍数据湖构建(DLF)产品一站式入湖能力以及如何通过DLF入湖模板的能力简单快速的将多种异构数据源一键实时入湖.
展开查看详情
1 . 数据湖构建·Data Lake Formation 多数据源⼀站式⼊湖 彭志伟 · 阿⾥云 / 技术专家
2 . 数据湖构建·Data Lake Formation 01 背景介绍 02 ⼀站式⼊湖 解决⽅案 03 ⽬录 >> 最佳实践 04 未来规划
3 .01 ⼀站式⼊湖 背景介绍 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
4 . 数据湖构建·Data Lake Formation 背景介绍 数据湖特性 • 集中化的数据存储仓库 • 数据来源多样性 • 数据结构多样性 • 计算存储分离架构
5 . 数据湖构建·Data Lake Formation 多数据源⼊湖挑战 如何实现异构数据源统⼀⼊湖 满⾜数据⼊湖的时效性 ⽀持数据源的实时变更 提供⼀个简单可配置的 实现分钟级延迟的数据 ⽀持数据源update、 ⼀站⼈⼊湖⽅式. ⼊湖能⼒. delete等实时变更操作
6 . 数据湖构建·Data Lake Formation CDC数据实时⼊湖 insert、update、delete binlog OSS 数据库 • 如何⽀持⽂件上的update、delete • 如何满⾜数据⼊湖的时效性 解决⽅案是什么?
7 .02 ⼀站式⼊湖 解决⽅案 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
8 . 数据湖构建·Data Lake Formation 解决⽅案 整体架构 DLF整体技术架构 ⼊湖模板 DLF提供的⼊湖模板
9 . 数据湖构建·Data Lake Formation 整体架构 ⼊湖模板 定义⼊湖数据源和结果表相关信息 ⼊湖引擎 ⼊湖模板转换成引擎代码执⾏ ⽂件格式 ⽀持delta,parquet等格式 数据湖存储 数据湖数据集中存放在oss中
10 . 数据湖构建·Data Lake Formation 整体架构 实时 binglog Spark Streaming SQL OSS ⽇志 批处理 Delta/Hudi/Parquet Spark SQL ots通道
11 . 数据湖构建·Data Lake Formation ⼊湖模板 全量数据库模板 增量数据库模板 将数据库中的表数据全量同步到数据湖. 将数据库产⽣的binlog实时同步到数据湖 实时SLS模板 实时OTS模板 将SLS的⽇志实时同步到数据湖 将OTS中的数据实时同步到数据湖. OSS格式转换 将OSS中的不同格式进⾏转换,如 parquet,csv,delta等互转.
12 . 数据湖构建·Data Lake Formation 全量数据库模板 主要场景 • 数据库全量数据⼊湖进⾏分析 • 时效性要求不⾼(T + 1/T + h) 主要功能 • ⽀持RDS mysql 5.x/8.x版本数据库 • ⽀持定时调度执⾏ • ⽀持delta、parquet、orc等格式
13 . 数据湖构建·Data Lake Formation 增量数据库模板 主要场景 • 对数据库binglog数据⼊湖进⾏分析 • 时效性要求⾼(T + M) 主要功能 • 通过DTS订阅同步增量数据 • 分钟级的同步延迟 • ⽀持delta格式(hudi正在⽀持中)
14 . 数据湖构建·Data Lake Formation 实时SLS模板 主要场景 • 对sls⽇志数据进⾏⼊湖分析 • 时效性要求⾼(T + M) 主要功能 • ⽀持按⽇志时间进⾏分区 • ⽀持delta格式(hudi正在⽀持中)
15 . 数据湖构建·Data Lake Formation 实时OTS模板 主要场景 • 对OTS通道数据进⾏⼊湖分析 • 时效性要求⾼(T + M) 主要功能 • 提供分钟级的同步延迟 • ⽀持三种OTS通道的同步 • OTS全量通道 • OTS增量通道 • OTS全量+增量通道 • ⽀持delta格式
16 . 数据湖构建·Data Lake Formation 模板实例管理
17 .03 ⼀站式⼊湖 最佳实践 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
18 . 数据湖构建·Data Lake Formation 增量数据⼊湖演示 演示DTS增量⼊湖的case
19 . 数据湖构建·Data Lake Formation 数据湖格式转换演示 演示数据湖不同格式转换的case
20 .04 ⼀站式⼊湖 未来规划 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
21 . 数据湖构建·Data Lake Formation 未来规划 模板功能增强 1 2 更多数据源⽀持 ⼀库多表⽀持 ⽀持Kakfa、PolarDB、MongoDB ⽀持同时同步多张数据库表到数据湖中, 等数据源 包括离线和实时 3 4 ⾃定义预处理 平台能⼒建设 包括实时作业监控、告警、点位展示、 ⽀持⾃定义预处理逻辑 交互优化以及报错信息完善,提⾼可运维 性和易⽤性
22 . 数据湖构建·Data Lake Formation 未来规划 数据湖格式优化 1 2 Hudi格式引进 Delta merge性能优化 ⽀持hudi格式,和数据湖元 优化delta merge实现机制,⽐如 数据打通 引进索引以及merge on read⽅式.
23 . 数据湖构建·Data Lake Formation 加⼊数据湖构建产品交流钉钉群 关注数据湖技术微信公众号