阿里云EMR入门课第一讲-走进开源大数据平台EMR

第一课:走进开源大数据平台 EMR
本节主要介绍EMR产品历史、选择理由、产品形态介绍
产品链接:https://www.aliyun.com/product/emapreduce

更多产品相关信息请加入钉钉群讨论

展开查看详情

1.⾛进开源⼤数据平台EMR 王晓平 · 阿⾥巴巴 / EMR产品专家

2. 01 发展历程 02 CONTENT 现状 ⽬录 >> 03 为什么选EMR 04 展望

3.01 发展历程 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

4.早期⼤数据平台 Hadoop社区版本 Hadoop发⾏版 MaxCompute (ODPS)

5.发展历程 2016/06 2015/06 产品商业化 云市场镜像 2015/11 ⾄今 EMR作为独⽴产品 云上开源⼤数据⽣态 正式发布上线

6.发展历程 云原⽣临时平台 根据任务⽣成临时集群 增强运维能⼒和配套能⼒ 强化常驻集群管理能⼒ 强化⼯作流调度 ⼯作流管理 组件管理 丰富⼤数据场景 ⼤数据⾼安全/⾼可⽤ Kafka/Impala/Druid多种⼤数据场景 机器学习场景 云上开源⼤数据⽣态 轻量级/智能化 PAI DataWorks K8s

7.02 现状 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

8.EMR开源软件栈

9.EMR开源软件栈 数据科学 流式计算 增加Flink 数仓场景 数据湖 增加Impala,Presto 增加Kudu、Delta Lake 2016 2017 2018 2019 Hadoop 2.x/HBase 集群HA 增加数据科学集群 Hadoop 3.x

10. EMR集群类型 • 数据仓库: Hive • 数据仓库: Hive • 离线计算: MR, Spark • 机器学习: Spark,VVP,Analytic • 流式计算: Flink, Spark Streaming Zoo,Alink, TF on YARN • Ad hoc查询: Impala, Presto • ⼤数据⼯具: Jupyter , Zeppelin ⼤数据平台 Data Science • NoSQL: HBase • ⼤数据⼯具: HUE, Zeppelin • 流式计算引擎:VVP • 消息引擎: Kafka • 流式机器学习:Alink • 集群管理: Kafka Manager • 数据平台:Hadoop • 安全与权限: MIT Kerberos,Ranger 消息队列 DataFlow • 分布式锁: ZooKeeper • 计算引擎:Druid • 数据可视化:Superset • 数据平台:Hadoop 实时OLAP 分布式锁

11.03 为什么选EMR Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

12.为什么选择EMR 开源 性能 弹性 云⽣态 采⽤开源组件 基于开源性能优化 计算资源弹性 应⽤⽣态:DW、PAI等 组件适配 灵活多样存储⽅案 基础⽣态:ECS、OSS等 稳定性更优

13.计算资源弹性

14.多样化存储解决⽅案

15.灵活的集群架构

16.04 展望 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

17. 展望 Spark 3.0发布 ⼤数据容器化 预留实例 计算存储分离 ⽀持AMD实例 抢占式实例 跟随开源 基础设施 灵活的购 数据湖场 ⼀起成⻓ 升级 买⽅式 景

18.