- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
基于 Alluxio + 阿里云 DLF 构建高效云原生数据湖
马振林,阿里云数据库技术专家。多年大数据相关领域工作经验,目前在阿里云从事数据湖查询引擎的研发工作
- 阿里云数据湖
- 数据湖存储和加速 (Alluxio)
- 数据湖元数据
- 使用场景
展开查看详情
1 .基于 Alluxio + 阿里云 DLF 构建高效云原生数据湖 孙大鹏(诚历) 阿里云-计算平台 EMR 技术专家
2 . 01 阿里云数据湖 02 数据湖存储和加速 (Alluxio) Contents 目录 03 数据湖元数据 04 使用场景
3 .阿里云数据湖 Alibaba Cloud Data Lake 01
4 . 阿里云数据湖 分析 Analytics 人工智能 Artificial Intelligence 生态产品 Eco-products MaxCompute EMR(Spark+Presto) 机器学习 PAI EMR DataScience Databricks 数据洞察 MC-Hologres 实时计算Flink版 自建 CDH 智能推荐AIRec 印刷文字识别 自建 Hadoop Elasticsearch DataWorks 数据湖存储 OSS 数据湖构建 Data Lake Formation 结构化/半结构化/非结构化 ETL数据清洗 / 元数据 / 权限管理 数据入湖 数据集成 DataHub 实时计算Flink版
5 . E-MapReduce(EMR)是什么 EMR是阿里云上云原生开源大数据平台。 Time line Product Features 100% 开源 组件 2016.6 EMR 正式上线公测 • 产品所使用的大数据组件均为100%开源组件。 2016.9 EMR 商业化版本发布 • 根据开源社区的进度版本升级,Bug Fix。 2017.9 Data Science集成集成 • 对Spark, Hadoop, Kafka等组件均有性能和易用性的增强。 2019.8 EMR 敏捷版发布(基于Kubernetes) 成本优化 2019.12 EMR 4.0 发布,支持Hadoop 3.1 • 支持集群的弹性伸缩 • EMR+OSS存算分离架构 2020.12 EMR 3.33 发布, 支持 Alluxio 2.4.0 • 支持ECS竞价实例 • 支持通过作业拉起临时集群 2021.1 EMR 4.7 发布, 支持 Alluxio 2.4.1 企业特性 • 采用MIT Kerberos + Apache Ranger 用户鉴权和权限管理 • 提供EMR APM监控集群和作业运行状况
6 . EMR 整体架构 PAI DataWorks NoteBook Application DEV & Jupyter/Zepplin Data Science workbench Metadata Job Scheduler Job Scheduler EMR-Workspace/ management EMR-Flow/Oozie Permission Hue/Superset Hive/Kafka & Alluxio TensorFl authorizatio MR Hive Spark Flink ow Storm Impala Presto n 监 YARN Kafka Druid Compute Engine 智 能 Kerberos HBase 社区开源组件 控 Ranger Delta Lake Alluxio 运 & 告 Kudu HDFS OSS JindoFS Data Storage 维 EMR开源软件增强 警 管 Sqoop,DataX Flume,Kafka Logstash,SLS Data Integration 控 EMR自研组件 Data Platform EMR Agent Management Basic Compute ECS/ECI/ACK(K8s) Source 阿里云其他云产品
7 . EMR 集群节点类型 Master • 部署Master服务 Gateway Gateway • Alluxio Master / HDFS NameNode / YARN ResourceManager... Core • 部署 Alluxio Worker / NodeManager / DataNode Master Master • 不支持弹性伸缩 Task • 部署 Alluxio Worker / YARN NodeManager / 无 DataNode Core Core Task • 支持竞价实例和弹性伸缩 • 支持GPU实例和异构计算 Core Core Task Gateway • 部署 Alluxio、Hadoop,Spark,Flink 等组件的客户端 Core Core Task • 支持部署不同部门采用不同的参数和配置
8 .数据湖存储与加速 Data Lake Storage & Acceleration 02
9 . 计算存储分离 - EMR + OSS 弹性计算 Spark Flink Presto …… l 根据周期/负载弹性伸缩 l 弹性资源采用按量+Spot实例方式优化成本 (成本节省10%-20%) 数据湖加速 EMR 数据湖加速 l 统一命名空间 l 对 HDFS/ OSS 的计算加速 OSS 数据湖存储 • 标准型 l 集中统一存储,避免数据不一致 • 低频型 l 高可靠,11个9数据可靠性 OSS • 归档型 l 可扩展,海量数据存储,EB级别,数十亿级别文件数目 • 深度归档 l 易维护,避免HDFS Federation的复杂度
10 . 基于 Alluxio 构建数据湖统一命名空间 Alluxio OSS Bucket 1 alluxio://host:port/ oss://bucket1/directory/ HDFS ODS DW hdfs://cluster1/directory/ Customer DW Customer OSS Bucket 2 Sales DM1 DM2 oss://bucket2/directory/ DM1 DM2 Sales
11 . Alluxio 分布式缓存 -- IaaS层选型 容量型缓存 高速型缓存 (HDD) (SSD) D2 I2&I3 更高的网络带宽 Higher bandwidth for data transformation • HDD 适合缓存全量数据、SSD 适合缓存热点; • 本地磁盘提供了极高的性能和性价比,同时也带来了运维的成本; • 支持磁盘的热更换,EMR 提供了整套硬件的监测、预警、通知、更换等操作完成主动运维流程。
12 .数据湖元数据 Data Lake Formation 03
13 . Data Lake Formation 数据湖计算引擎 元数据管理 Databricks EMR PAI MaxCompute MC-Hologres l 统一元数据管理,解决元数据多引擎一致性问题 DataInsight l 自动生成元数据,降低使用成本 Data Lake Formation 访问控制 元数据管理 l 集中数据访问权限控制,多引擎统一集中式赋权 元数据编目 元数据发现 元数据抽取 l 数据访问日志审计,统计数据访问信息 访问控制 数据入湖 访问权限控制 访问日志审计 l 支持多种数据源入湖,MySQL、SLS、OTS、Kafka等 l 离线/实时入湖,支持Delta/Hudi等多种数据湖格式 l 数据入湖预处理,支持字段mapping/转换/自定义udf操作 数据入湖 多数据源入湖 离线/实时入湖 数据预处理 MySQL、SLS、OTS等 支持Delta/Hudi格式 自定义UDF、ETL流程 数据湖存储OSS
14 .使用场景 Scenarios 04
15 .场景:数据湖统一命名空间 统一命名空间 l 统一命名空间,避免使用各自前缀 fs.defaultFS = alluxio://emr-header/ hadoop fs -ls / l 统一数据入口,进行高效缓存
16 . 场景: OLAP 查询加速 EMR OLAP l 网络延时敏感; l 网络带宽存在瓶颈; …… l 存在热点数据; 读取数据加速 l 利用 ALLUXIO 构建高速分布式缓存 l MEM+SSD 阿里云 Data Lake Formation 数据湖 OSS EMR HDFS
17 .THANKS !