- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Flink-构建下一代大数据处理引擎
展开查看详情
1 .Flink: 构建下⼀一代⼤大数据处理理引擎 巴真 @FlinkChina Meetup
2 .Agenda 数据趋势 业界案例例 阿⾥里里思考 Flink@阿⾥里里
3 .数据趋势 Terabytes/Petabytes Volume Velocity realtime/near-realtime Variety Web2.0/IOT/Edge
4 .Volume EB Total PB Everyday 100B Event/Day 100M Events/sec
5 .Volume 百万商家 3亿⽤用户 千亿成交
6 .Variety IT化 ⽹网络化 移动化 万物互联
7 .Variety AWS S3 阿⾥里里云OSS Semi-Structured Unstructured
8 .Velocity 472M events/sec Sub-second Latency
9 .Velocity Lots of Events Exactly-Once Web Tier DataHub Data Pipeline HBase Dashboard DB Tier MQ Sub second latency Highly Available
10 .数据趋势 Volume Variety +
11 .数据趋势 Volume Velocity +
12 .数据趋势 Volume Velocity ? Variety
13 .计算趋势 计算碎⽚片化 模型多样化
14 .计算趋势
15 .⽤用户趋势 数万Dataer 百万Job 在阿⾥里里,⼈人⼈人都是数据分析师
16 .⽤用户趋势 BI Engineer AI Engineer 在阿⾥里里,BI⼯工程师在转型AI⼯工程师
17 .典型案例例 阿⾥里里业务 超大规模、超级复杂、计算多样、数据多样、用户众多 滴滴业务 独角兽公司,爆发式增长、计算时效性强 知乎业务 典型案例例分析 典型UGC、Web2.0业务
18 .典型案例例 阿⾥里里业务
19 .典型案例例 滴滴业务
20 .典型案例例 知乎业务
21 .阿⾥里里思考 | 计算类型多,但核⼼心模型可列列举 阿⾥里里在思考 | 描述⽅方式多,但核⼼心抽象可列列举 | ⼈人参考数据决策 -> 机器器计算数据决策
22 .阿⾥里里思考 70% 10+% 10-% 10% Batch OLAP Stream Others 计算类型多种多样,但⼊入⼝口业务仅此数种
23 .阿⾥里里思考 1+% 1+% 99% SQL 99% NonSQL Batch Stream
24 .阿⾥里里思考 | 统⼀一计算引擎: Batch/Stream/OLAP/ML/Graph… 阿⾥里里的思考 | 统⼀一抽象⽅方式:Unified SQL & API | 统⼀一BI+AI引擎:数据清洗&数据训练
25 .阿⾥里里思考 阿⾥里里的思考 如何构建下⼀一代⼤大数据处理理引擎?
26 .Flink: 下⼀一代⼤大数据引擎 第⼀一代 第⼆二代 第三代
27 .Flink: 下⼀一代⼤大数据引擎 Spark Spark优势明显 Flink 功能完备: Batch/Stream/ML 简单易用: API丰富/文档较丰富/生态对接 社区活跃: 运营出彩、大数据最活跃社区 DataFlow 云产品系列 产品化: 产品化成熟,易于上手 Kinesis Redshift Presto 稳定性: 稳定性好,商业托管 Impala 社区小: 产品封闭,不易形成社区 StreamAnalytics Storm hive 开源软件 社区活跃: 产品开放,易于形成社区 稳定性差: Bug多,不稳定 产品粗糙: 产品化初级,上手较难
28 .Flink: 下⼀一代⼤大数据引擎 Spark期望一套软件覆盖主要计算模型,但实际覆盖不完整 21%用户认为Spark Streaming在功能(集中在窗口)和时延(亚秒)等比不上Flink,增量流 式业务考虑使用Flink 17%用户认为Spark ML部分落后,包括提供更多算法、对接TF,部分业务迁移到TF框 架运行 25%的用户认为当前缺乏好用、内置的上层平台,包括开发界面、工作流调度,用户使 用Spark同样需要重新搭建平台系统 稳定性/调优/排错 仍未解决 31% 用户吐槽Spark集群不稳定,经常性OOM导致业务产出不稳定 另外,几乎同样客户群体(说明都是深入生产使用Spark用户)都认为Spark作业排错、调 优困难,易用性不够 中文资料/社区严重缺乏,未能形成有效组织 30%用户吐槽当前文档、案例过少,特别在调优、排错方面,用户往往不知所措 用户同时认为相关中文资料相比更少,时效性也落后英文社区太多 中美语言差异导致中国市场更加空白
29 .Flink: 下⼀一代⼤大数据引擎 Flink: 下⼀一代流式处理理系统 ——为什什么Flink要⽐比Storm/Spark更更加优秀?