Apache Flink技术新趋势以及在阿里的实践

Apache Flink 在流处理领域已经成为业界主流和事实标准,目前仍处于高速发展期,本次分享将介绍 Flink 社区下一阶段的一些重要技术方向,包括流计算体验的极致优化、批流一体数据分析能力、面向ML场景的支持等,同时也会介绍这些新技术方向在阿里巴巴的实践和落地。

展开查看详情

1. Apache Flink 技术新趋势 及在阿里的实践 The Future of Apache Flink and Best Practices in Alibaba 王峰(莫问) 阿里云智能-资深技术专家 2020/09

2.About Me Carnegie Mellon University IBM LinkedIn Alibaba Alibaba Inc. Mainframe MSIN Apache Kafka Apache Flink Staff Software Engineer Senior Manager Apache Flink PMC Member Apache Kafka PMC Member 2008 2012 2014 2018

3.目录 Apache Flink 项目介绍 Brief Introduction of Apache Flink Flink 在阿里巴巴的应用 The Adoption of Flink in Alibaba Flink 技术新趋势与展望 The Future Direction of Flink

4.Apache Flink 项目介绍 Brief Introduction of Apache Flink

5.Apache Flink – 实时分析引擎 / Realtime Data Analytics

6.Apache Flink 典型场景 / Use Cases • 实时数据处理链路 / Data Pipeline o 实时 ETL o 实时索引构建 • 流批一体数据分析 / Unified Analytics o 流批一体的数仓 o 流批一体机器学习 • 事件驱动应用 / Event-Driven APP o 实时风控、反欺诈、异常检测 o 实时规则引擎

7.Apache Flink 架构演进 / Architecture Evalution • 从 API 到底层实现,Flink 逐渐形成一套真正的流批统一架构 • 顶层 API 设计更加清晰合理 o SQL 作为关系型API,提供低门槛的数据开发,提升开发效率 o DataStream API 提供更加灵活、可定制化的作业开发 <1.9 版本 1.9 & 1.10 版本 1.11+ 版本

8.Apache Flink 社区蓬勃发展 / Prosperous Community • 在 Apache 软件基金会年报中,Flink 已连续两年荣膺最活跃项目 o 用户和开发邮件列表活跃度 Top 5:Flink, Tomcat, Royale, Beam, Lucene Solr; o 代码提交次数 Top 5:Camel, Flink, Beam, HBase, Lucene Solr; o GitHub 代码访问量 Top 5:Spark, Flink, Camel, Kafka, Beam; • Flink 在国内的活跃度已开始赶超国外 Flink 中文邮件列表 Flink 邮件列表 Flink 英文邮件列表 Spark 邮件列表 Kafka 邮件列表

9.Flink 在国内互联网公司广泛应用

10.Flink 在阿里巴巴的应用 The Adoption of Flink in Alibaba

11. Flink在阿里巴巴的发展历程 – Roadmap of Flink in Alibaba 搜索与推荐业务 集团业务 实时计算云服务 全球化企业版 阿里经济体业务 Search & Rec Group-Wide Cloud Service Ververica Platform Alibaba Economy • 阿里集团最核心业务场景 • 阿里集团实时数据业务 • 数百家知名企业 • 收购Flink创始公司 • 蚂蚁集团实时数据业务 • 双11在线学习提升GMV • 双11 GMV大屏秒级更新 • 互联网、金融、教育、交通等 • 国际化,全球化 • 阿里经济体统一服务 • 初露锋芒 • 全面平台化 • 全面产品化 2016 2017 2018 2019 2020

12.阿里巴巴基于 Flink 的实时计算平台 – Alibaba Realtime Computing Platform 集群资源 计算任务 事件处理 峰值能力 业务场景全面实时化 实时数仓 在线学习 安全风控 实时监控 计算能力:25 亿+记录 / 秒 日志 数据库(商品更新) 计算规模:3 万+ Jobs 计算资源:100 万+ CPU

13.Flink 技术新趋势与展望 The Future Direction of Flink

14.Flink 技术发展新趋势 – Three Directions for Flink in the Future 极致实时计算体验 批流融合数据分析 在线机器学习 Fantastic Realtime Experience Unified Data Analytics Online Machine Learning

15.极致实时计算体验 Fantastic Realtime Experience

16.极致的实时应用 – 阿里巴巴库存实时对账系统 • 涉及资金链路,对稳定性和SLA要求非常高 对 Flink Checkpoint 机制提出了更高的要求 • 需要做到 End-to-end exactly once 和秒级延时 库存DB 库存Binlog Left Outer Join 数据去重 从库存的角度 库存自定义逻辑 验证交易 库存管理 系统 异常监控 超卖报警 补货通知 超卖补偿 Left Outer Join 。。。 数据去重 从交易的角度 交易自定义逻辑 验证库存 交易DB 交易Binlog

17.Flink 容错能力提升 • Unaligned Checkpoints (1.11 Beta) o 提升在作业反压时 checkpoint 的稳定性 o 大大降低 checkpoint 所需时间,意味着 更短的端到端延时 • Fault tolerance 2.0 (未来)

18.批流融合数据分析 Unified Data Analytics

19.经典数仓架构 / Traditional Data Warehouse 秒级、分钟级延迟 实时成交大屏 数据库交易 Binlog 实时商家排名 明细层 汇总层 实时异常检测 商品曝光 商品点击 卖家 类目 数据交叉对比 用户加购 用户收藏 行业 活动 保证计算口径一致? 保证不同引擎行为一致? 订单创建 订单支付 PV UV APP日志 小时级业务信息汇总 天级业务报表 天级模型训练

20.统一汇总层计算 / Unified DWS 秒级、分钟级延迟 实时成交大屏 数据库交易 Binlog 如何保证明细数据口径一致? 实时商家排名 同时减少冗余处理链路的浪费 使用相同的引擎和 实时异常检测 明细层 相同的查询语句 商品曝光 商品点击 数据交叉对比 用户加购 用户收藏 订单创建 订单支付 APP日志 小时级业务信息汇总 天级业务报表 天级模型训练

21.统一明细数据加工 / Unified DWD 秒级、分钟级延迟 实时成交大屏 数据库交易 Binlog 实时商家排名 实时异常检测 明细数据加工完后 近实时回流 数据交叉对比 遗留问题: APP日志 小时级业务信息汇总 o 小文件过多 o Meta管理成为瓶颈 天级业务报表 o 缺乏基础的ACID保证 o 不支持修改数据 天级模型训练

22.新一代批流融合数据湖 / Unified Analytics on Data Lake 实时成交大屏 实时商家排名 数据库交易 Binlog 实时异常检测 明细数据加工完后 近实时回流 分钟指标计算 近实时读取 分钟业务报表 分钟模型更新 统一的湖存储 APP日志 o 流批一体读写能力 o 基础的ACID保证 小时级业务信息汇总 o Update、Delete支持 批量读取 o 更高效的meta管理 天级业务报表 天级模型训练

23.在线机器学习 Online Machine Learning

24.阿里搜索推荐在线学习系统 / Online Learning for Alibaba Search & Rec & Ads 搜索/Search 在线预测 模型训练 移动端 推荐/Rec 日志收集 样本拼接 广告/Ads PC端 • 时效性:大促期间,全流程实时更新 • 灵活性:根据需求,随时调整特征和模型 • 可靠性:系统稳定、高可用,上线效果保证

25.传统离线学习流程 / Traditional Offline Learning 1. 在数据处理的每个阶段,数据都需要批量落盘,计算较为集中 特征中心 日志类型1 离线特征计算 离线样本拼接 增量样本 日志类型2 2. 从数据产出,生成样本到模型训练一般有24小时的数据延迟 在线预测 模型 合并训练 历史样本 3. 模型一般一天更新一次,或者更长时间更新一次,业务时效性无法保证

26.实时在线学习流程 / Realtime Online Learning 1、整个数据处理阶段全流式,数据从收集到生成样本在秒级延迟 日志类型1 实时特征计算 实时样本拼接 模型训练 日志类型2 2、训练和预测共享相同的特征 特征中心 3、模型实时更新 AppServer 在线预测 模型 4、不会出现集中计算的压力,计算压力分散在24小时

27.批流融合在线学习流程 / Unified Online Learning 1、整个数据处理阶段全流式,数据从收集到生成样本在秒级延迟 日志类型1 批流融合 批流融合 特征计算 样本拼接 模型训练 日志类型2 2、训练和预测共享相同的特征 特征中心 3、模型灵活更新 AppServer 在线预测 模型 4、一套系统,同时兼顾时效性和灵活性

28. 开源数据技术领域顶级盛会 覆盖百万级开发者,2020年12月26-28日,线上峰会,重磅开启 国内外一线厂商积极参与 阿里巴巴、腾讯、字节跳动、美团点评、快手、小米、Bilibili、Intel、 LinkedIn 、 DellEMC、Shopee ... 超强 Program Committee 阵容 14位国内外数据处理领域大神坐镇,议题内容更多元 Flink Forward Asia 投递议题 与全球开发者分享您的真知灼见

29. WE ARE HIRING! 招人!招人!招人! Jiangjie.qj@Alibaba-inc.com