- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
阿里云EMR入门课第一讲-走进开源大数据平台EMR
第一课:走进开源大数据平台 EMR
本节主要介绍EMR产品历史、选择理由、产品形态介绍
产品链接:https://www.aliyun.com/product/emapreduce
展开查看详情
1 .⾛进开源⼤数据平台EMR 王晓平 · 阿⾥巴巴 / EMR产品专家
2 . 01 发展历程 02 CONTENT 现状 ⽬录 >> 03 为什么选EMR 04 展望
3 .01 发展历程 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
4 .早期⼤数据平台 Hadoop社区版本 Hadoop发⾏版 MaxCompute (ODPS)
5 .发展历程 2016/06 2015/06 产品商业化 云市场镜像 2015/11 ⾄今 EMR作为独⽴产品 云上开源⼤数据⽣态 正式发布上线
6 .发展历程 云原⽣临时平台 根据任务⽣成临时集群 增强运维能⼒和配套能⼒ 强化常驻集群管理能⼒ 强化⼯作流调度 ⼯作流管理 组件管理 丰富⼤数据场景 ⼤数据⾼安全/⾼可⽤ Kafka/Impala/Druid多种⼤数据场景 机器学习场景 云上开源⼤数据⽣态 轻量级/智能化 PAI DataWorks K8s
7 .02 现状 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
8 .EMR开源软件栈
9 .EMR开源软件栈 数据科学 流式计算 增加Flink 数仓场景 数据湖 增加Impala,Presto 增加Kudu、Delta Lake 2016 2017 2018 2019 Hadoop 2.x/HBase 集群HA 增加数据科学集群 Hadoop 3.x
10 . EMR集群类型 • 数据仓库: Hive • 数据仓库: Hive • 离线计算: MR, Spark • 机器学习: Spark,VVP,Analytic • 流式计算: Flink, Spark Streaming Zoo,Alink, TF on YARN • Ad hoc查询: Impala, Presto • ⼤数据⼯具: Jupyter , Zeppelin ⼤数据平台 Data Science • NoSQL: HBase • ⼤数据⼯具: HUE, Zeppelin • 流式计算引擎:VVP • 消息引擎: Kafka • 流式机器学习:Alink • 集群管理: Kafka Manager • 数据平台:Hadoop • 安全与权限: MIT Kerberos,Ranger 消息队列 DataFlow • 分布式锁: ZooKeeper • 计算引擎:Druid • 数据可视化:Superset • 数据平台:Hadoop 实时OLAP 分布式锁
11 .03 为什么选EMR Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
12 .为什么选择EMR 开源 性能 弹性 云⽣态 采⽤开源组件 基于开源性能优化 计算资源弹性 应⽤⽣态:DW、PAI等 组件适配 灵活多样存储⽅案 基础⽣态:ECS、OSS等 稳定性更优
13 .计算资源弹性
14 .多样化存储解决⽅案
15 .灵活的集群架构
16 .04 展望 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
17 . 展望 Spark 3.0发布 ⼤数据容器化 预留实例 计算存储分离 ⽀持AMD实例 抢占式实例 跟随开源 基础设施 灵活的购 数据湖场 ⼀起成⻓ 升级 买⽅式 景
18 .