阿里云EMR入门课第二讲-EMR 产品使用入门

第二课:EMR 产品入门
本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等
产品链接:https://www.aliyun.com/product/emapreduce

更多产品相关信息请加入钉钉群讨论

展开查看详情

1.EMR 产品使⽤⼊⻔ 孙⼤鹏 (诚历) · 阿⾥巴巴 / 技术专家

2.个⼈介绍 孙⼤鹏 花名: 诚历 阿⾥云 EMR 公有云 JindoFS 湖加速 存储相关的研发和优化 深度整合云上数据湖存储,加速引擎 计算,满⾜数据湖计算、分析需求 Hadoop ⼤数据 开源贡献 7年 Hadoop ⼤数据相关产品研 6年 Apache 开源社区研发经验 发经验

3. 01 E-MapReduce (EMR) 02 CONTENT EMR 组件介绍 ⽬录 >> 03 EMR 云上特性 04 课程回顾

4.01 E-MapReduce 介绍 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

5.E-MapReduce 介绍 Hadoop 集群 Data Science 集群 Kafka 集群 Druid 集群 Zookeeper 集群 DataFlow 集群 构建在阿里云 ECS 上的开源 Hadoop、 Spark、HBase、Hive、Flink 生态大数 开源大数据 + AI 平台 据 PaaS 产品

6.阿⾥云 E-MapReduce 发展历程 大数据 + AI 一站式平台 智能化,高性能 管控平台、高 可用、生态、 安全 云上常驻集群: 作业管理和调 度 云上 Hadoop集 群

7.阿⾥云 E-MapReduce 平台架构

8. 阿⾥云 E-MapReduce 集群架构 EMR Gateway 主节点 主节点 EMR Header EMR Header EMR Gateway 计算节点 计算节点 计算节点 计算节点 EMR Core EMR Core EMR Task EMR Task 计算节点 计算节点 计算节点 计算节点 EMR Core EMR Core EMR Task EMR Task … … … …

9.02 EMR 组件介绍 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

10.E-MapReduce 使⽤场景 海量数据存储 & 加速 数据导⼊、抽取、转换 (ETL) HDFS、JindoFS + OSS… JindoDistCP、Sqoop、Spark… 实时查询和离线分析 交互式 & Web UI Hive 、 Spark 、 Presto 、 HUE 、 Zeppelin 、 Knox 、 Impala… DataWorks…

11. 存储篇 海量数据如何存储 Apache HDFS JindoFS OSS 社区优化版本 数据湖加速⾸选 海量存储、便宜

12.Apache HDFS

13. JindoFS + OSS OTS Namespace Service 架构优势 Node 1 Node 2 • 数据保存在 OSS 上,廉价 弹性海量 • 数据缓存在本地介质上, Storage Service Storage Service Client 读写性能加速,性能接近 Client HDFS Local Storage • 元数据存储/备份在 OTS Local Storage 上,不怕丢 • EMR JindoFS 集群可弹性伸 缩,弹性创建销毁,数据 一键备份恢复 OSS

14. ETL篇 数据从哪⾥来 SQOOP、Kafka JindoDistCP Apache Spark 导⼊其他数据源 分布式⽂件同步 Spark Streaming、 Delta 实时数仓

15.JindoDistCP • 简单易⽤的分布式⽂件拷⻉⼯具; • ⽀持 HDFS、OSS 以及其他数据源(S3) 之间的数据迁移; • 深度结合 OSS 对象存储的特性,实现 No-Rename 拷⻉,⼤⼤缩短离线数据 ⼊ 湖 迁 移 时 间 消 耗 。

16. 查询分析篇 离线分析、实时查询 Hive Spark SQL Impala Presto Hadoop 最早的 基于 Spark 的 Cloudera 开发的 Hive 的进化版本 SQL 引擎 SQL 引擎 MPP 的 SQL 引擎

17.Hive

18.Spark SQL DataFrame DSL Spark SQL and HQL DataFrame API DataSource API Parquet ORC CSV …

19.Impala

20.Presto

21. 交互篇 & Web UI 提升效率,降低使⽤⻔槛 HUE Knox Zeppelin Hadoop ⼀站式交 Hadoop 统⼀ Web 交互式数据分析、 互式开发平台 ⽹关 数据可视化

22.HUE

23.Knox

24.03 EMR 云上特性 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

25. 集群管理篇 服务管理 集群监控 作业管理 资源管理 可视化集群管理控制 事件消息报警体系,⾃ ⽀持DAG,⽅便的多种 计算存储分离,资源弹 台 定义监控指标,服务详 作业管理,更好的弹性 性使⽤,包⽉和按量结 情分析,钉钉和短信报 资源结合 合 警通路

26.服务管理

27.集群监控

28.作业管理

29.资源管理

阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。 团队群号:HPRX8117 微信公众号:Apache Spark技术交流社区