Flink-构建下一代大数据处理引擎

展开查看详情

1.Flink: 构建下⼀一代⼤大数据处理理引擎 巴真 @FlinkChina Meetup

2.Agenda 数据趋势 业界案例例 阿⾥里里思考 Flink@阿⾥里里

3.数据趋势 Terabytes/Petabytes Volume Velocity realtime/near-realtime Variety Web2.0/IOT/Edge

4.Volume EB Total PB Everyday 100B Event/Day 100M Events/sec

5.Volume 百万商家 3亿⽤用户 千亿成交

6.Variety IT化 ⽹网络化 移动化 万物互联

7.Variety AWS S3 阿⾥里里云OSS Semi-Structured Unstructured

8.Velocity 472M events/sec Sub-second Latency

9.Velocity Lots of Events Exactly-Once Web Tier DataHub Data Pipeline HBase Dashboard DB Tier MQ Sub second latency Highly Available

10.数据趋势 Volume Variety +

11.数据趋势 Volume Velocity +

12.数据趋势 Volume Velocity ? Variety

13.计算趋势 计算碎⽚片化 模型多样化

14.计算趋势

15.⽤用户趋势 数万Dataer 百万Job 在阿⾥里里,⼈人⼈人都是数据分析师

16.⽤用户趋势 BI Engineer AI Engineer 在阿⾥里里,BI⼯工程师在转型AI⼯工程师

17.典型案例例 阿⾥里里业务 超大规模、超级复杂、计算多样、数据多样、用户众多 滴滴业务 独角兽公司,爆发式增长、计算时效性强 知乎业务 典型案例例分析 典型UGC、Web2.0业务

18.典型案例例 阿⾥里里业务

19.典型案例例 滴滴业务

20.典型案例例 知乎业务

21.阿⾥里里思考 | 计算类型多,但核⼼心模型可列列举 阿⾥里里在思考 | 描述⽅方式多,但核⼼心抽象可列列举 | ⼈人参考数据决策 -> 机器器计算数据决策

22.阿⾥里里思考 70% 10+% 10-% 10% Batch OLAP Stream Others 计算类型多种多样,但⼊入⼝口业务仅此数种

23.阿⾥里里思考 1+% 1+% 99% SQL 99% NonSQL Batch Stream

24.阿⾥里里思考 | 统⼀一计算引擎: Batch/Stream/OLAP/ML/Graph… 阿⾥里里的思考 | 统⼀一抽象⽅方式:Unified SQL & API | 统⼀一BI+AI引擎:数据清洗&数据训练

25.阿⾥里里思考 阿⾥里里的思考 如何构建下⼀一代⼤大数据处理理引擎?

26.Flink: 下⼀一代⼤大数据引擎 第⼀一代 第⼆二代 第三代

27.Flink: 下⼀一代⼤大数据引擎 Spark Spark优势明显 Flink 功能完备: Batch/Stream/ML 简单易用: API丰富/文档较丰富/生态对接 社区活跃: 运营出彩、大数据最活跃社区 DataFlow 云产品系列 产品化: 产品化成熟,易于上手 Kinesis Redshift Presto 稳定性: 稳定性好,商业托管 Impala 社区小: 产品封闭,不易形成社区 StreamAnalytics Storm hive 开源软件 社区活跃: 产品开放,易于形成社区 稳定性差: Bug多,不稳定 产品粗糙: 产品化初级,上手较难

28.Flink: 下⼀一代⼤大数据引擎 Spark期望一套软件覆盖主要计算模型,但实际覆盖不完整 21%用户认为Spark Streaming在功能(集中在窗口)和时延(亚秒)等比不上Flink,增量流 式业务考虑使用Flink 17%用户认为Spark ML部分落后,包括提供更多算法、对接TF,部分业务迁移到TF框 架运行 25%的用户认为当前缺乏好用、内置的上层平台,包括开发界面、工作流调度,用户使 用Spark同样需要重新搭建平台系统 稳定性/调优/排错 仍未解决 31% 用户吐槽Spark集群不稳定,经常性OOM导致业务产出不稳定 另外,几乎同样客户群体(说明都是深入生产使用Spark用户)都认为Spark作业排错、调 优困难,易用性不够 中文资料/社区严重缺乏,未能形成有效组织 30%用户吐槽当前文档、案例过少,特别在调优、排错方面,用户往往不知所措 用户同时认为相关中文资料相比更少,时效性也落后英文社区太多 中美语言差异导致中国市场更加空白

29.Flink: 下⼀一代⼤大数据引擎 Flink: 下⼀一代流式处理理系统 ——为什什么Flink要⽐比Storm/Spark更更加优秀?