2019云栖大会助力云上开源生态 - 阿里云开源大数据平台的发展

9月27日【助力云上开源生态 - 阿里云开源大数据平台的发展】

主讲人:夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

简介:介绍阿里云上开源生态的发展,阿里云如何更好的支持和融合开源生态,以及未来的发展。

阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区

展开查看详情

1. 助力云上开源生态 - 阿里云开源大数据平台的发展 Empower Open-Source Ecosystem in the Cloud – Development of Alibaba Cloud’s Open-Source Platform 夏立 阿里巴巴高级产品专家

2. 01 发展历程 Contents 02 云上现状 目录 03 云上开源生态的最佳实践 04 开源大数据平台的发展展望

3.发展历程 History of E-MapReduce 01

4. 起点:2015年 Start time : Year 2015 Open Source Hadoop Cloudera CDH ODPS Hortonworks HDP (Maxcompute)

5. 起点:2015年 Start time : Year 2015 6月 正式开始做阿里自己的开源平台 June begin to provide open-source platform on alibaba cloud 镜像+脚本 ( Image + Script ) 一次性搭建 (disposable cluster)

6. 独立云产品 Be a Alibaba cloud product 11月产品正式上线 November E-MapReduce published 命名为E-MapReduce Named E-MapReduce

7. 发展到今天 Now 提供开源生态 open-source ecosystem 提供增强的技术 &解决方案 Supprot Enhanced software & product solution

8. 发展到今天 Now 更多的开源技术 更好的技术优化 云原生的结合 Various of open-source software High performance Cloud native Hadoop Spark HBase TensorFlow Flink Hive

9. 发展路线 Roadmap 第三次调整 第二次调整 平台和更整合,更智能 E-MapReduce 强调运维和丰富的功能 业务场景的方案支持 第一次调整 完善的Web控制台能力 品牌 AWS的纯动态并不适合国内场景 类似CDH,HDP 更加重视常驻集群 高可用和高安全的支持 完善的大数据平台 智能化的服务能力 AWS EMR like的产品 更轻量级的底层 强化作业 Impala,Kafka,Druid等 计算平台整体能力 强化调度 各个场景下的软件 深度学习场景的支持 各个厂商,根据各自平台的不同,发展的策略 也不相同

10.现状 E-MapReduce now 02

11. 云上的生态概览 Ecosystem 数据来源 计算 融合 Open-source Open-source • Hive • HDFS RAM/STS RAM/STS • Spark • Kafka Kerberos/ • Flink Kerberos/ DataWorks Alibaba Ranger • Presto Ranger DataV • OSS • Tensorflow QuickBI • SLS Alibaba • RDS • MaxCompute • 消息队列 • Flink/Tensorflo w 半托管服务&Serverless服务的组合使用 数据存储 OSS HDFS/Alibaba HDFS Meta Service

12. 多样的存储选择 Various storage HDFS Alibaba HDFS OSS (Standard) EBS 数据可靠 数据可靠 数据可靠,成本低 后台多副本,成本高 成本中等,数据全部走 NativeOSS 通用性好 (Cloud Disk) 性能低,数据全部走网络,没有 网络,没有本地计算 性能较低 本地计算 D1 性能高,成本低 数据可靠,成本低,性 (Local 数据易失,运维成本高 JindoFS 能高 Disk) 通用性好 额外的存储成本 I1/I2 性能高,成本低 (Local 数据易失,运维成本高 Disk)

13. 弹性实践 Best practice of auto scaling Master + Core + Task Active Alibaba Cloud Master Master 云的弹性 ECS Resource pool • 计算资源独立扩充 • 存储资源独立扩充 • 灵活的按需集群 Core Task Core Task 成本优化 动态弹性资源 • 包月 + 按量 Core Task 常驻集群 • Spot Instance • Task节点弹性伸缩 - 按照时间伸缩 Core Task - 按照负载伸缩 计算和存储节点 计算节点

14. 集群架构 Architecture of EMR clusters Thrift Servers Gateways / Clients Clusters Clusters Hive Spark Presto Hive Flink Impala DB B DB MetaStore DB B DB Hadoop Cluster Hadoop Cluster OSS HDFS

15.云上开源生态的最佳实践 Best practice of open-source ecosystem on Alibaba cloud 03

16. 存储的选择&优化 Optimization of storage Hadoop Hadoop Hadoop Alibaba HDFS HDFS OSS HDFS JindoFS HDFS D1 EBS D1 (Local OSS (Cloud Disk) (Local Disk) Disk) EBS EBS (Cloud Disk) (Cloud Disk)

17. IaaS层升级 More powerful IaaS D1&I1 D2&I2 更高的网络带宽 1st generation of localdisk 2nd generation of localdisk Higher bandwidth for data transformation • 本地磁盘提供了极高的性能,同时也带来了运维的成本 • 通过磁盘的热更换,提供更好的体验整套的运维的支持链路 • 提供了整套硬件的监测、预警、通知、更换等操作完成主动运维流程

18. 存储访问优化方案JindoFS Optimization for accessing OSS through JindoFS Namespace Service 架构方案 Node 1 Node 2 高性能的数据存取能力 高性价比、无限扩展的弹性存储能力 Storage Storage Client Client Service Service 运维服务效率大幅提升 极大的降低运维的成本 OSS 提供高质量技术服务 Local Local Storage Storage

19. 更多的产品的融合&增强 New Future on Cloud Spark Flink Spark EMR团队进行了大量优化的版本,提供大量的新特性,比如 Flink 阿里深度参与的实时计算框架,在阿里内部的超大场景有过 Relational Cache 验证 TensorFlow Elasticsearch Tensor- Elastic- Pai产品提供的经过深度优化的机器学习&深度框架和算法 用户众多的搜索引擎,在开源的基础上还集成了商业化的更 Flow search 多企业级能力 Dataworks 更多 Data- 阿里云数据中台的基石,完善和全面的数据工作台。 More OSS,HDFS的等等服务化的产品的组合 Works DataBricks的商业化版本的支持

20.展望 Look forward 04

21. Realtime data warehouse & Spark Streaming SQL RDS SparkSQL Presto Impala DB EMR EMR EMR Kudo DB EMR Spark DB Kafka DTS Streaming SQL EMR EMR 将业务数据库(OLTP)的数据实时同步到kudu中,可以实现对业务数据库中的数据进行实时OLAP分析的能力。 • 减少对线上OLTP数据库的压力 • [fast inserts/updates] 可以实时同步OLTP数据库的binlog,实时回放到kudu • [efficient columnar scans to enable multiple real-time analytic workloads] kudu提供高性能的OLAP分析

22. EMR + K8S Images EMR Image- EMR Image- EMR API Request 3.18 3.21 Resource Manager K8S Clusters API Server yaml Scheduler API Server EMR Clusters Master Master pod Master Task pod Task Task pod Task pod Core Core Core Core Task Task pod Task pod cluster Hybrid cluster cluster Master Master Master pod Task Task Task pod Task pod Core Core Task Core Core Task

23. Hybrid Cloud with Alibaba Cloud Alibaba Cloud VPC Dynamic VM IDC Resource EMR cluster IDC cluster Hive/Spark/Presto 专线 Hive/Spark/Presto JindoFS 可扩充的弹性存储资源 HDFS OSS 弹性资源管理 服务巡检 日志查询 监控报警 服务守护 智能诊断

24.THANK !