基于 Alluxio + 阿里云 DLF 构建高效云原生数据湖

下载 11

Alluxio

发布于

1463

人观看

#信息技术

马振林，阿里云数据库技术专家。多年大数据相关领域工作经验，目前在阿里云从事数据湖查询引擎的研发工作

阿里云数据湖
数据湖存储和加速 (Alluxio)
数据湖元数据
使用场景

展开查看详情

1 .基于 Alluxio + 阿里云 DLF 构建高效云原生数据湖孙大鹏（诚历）阿里云-计算平台 EMR 技术专家

2 . 01 阿里云数据湖 02 数据湖存储和加速 (Alluxio) Contents 目录 03 数据湖元数据 04 使用场景

3 .阿里云数据湖 Alibaba Cloud Data Lake 01

4 . 阿里云数据湖分析 Analytics 人工智能 Artificial Intelligence 生态产品 Eco-products MaxCompute EMR(Spark+Presto) 机器学习 PAI EMR DataScience Databricks 数据洞察 MC-Hologres 实时计算Flink版自建 CDH 智能推荐AIRec 印刷文字识别自建 Hadoop Elasticsearch DataWorks 数据湖存储 OSS 数据湖构建 Data Lake Formation 结构化/半结构化/非结构化 ETL数据清洗 / 元数据 / 权限管理数据入湖数据集成 DataHub 实时计算Flink版

5 . E-MapReduce(EMR)是什么 EMR是阿里云上云原生开源大数据平台。 Time line Product Features 100% 开源组件 2016.6 EMR 正式上线公测 • 产品所使用的大数据组件均为100%开源组件。 2016.9 EMR 商业化版本发布 • 根据开源社区的进度版本升级，Bug Fix。 2017.9 Data Science集成集成 • 对Spark, Hadoop, Kafka等组件均有性能和易用性的增强。 2019.8 EMR 敏捷版发布（基于Kubernetes）成本优化 2019.12 EMR 4.0 发布，支持Hadoop 3.1 • 支持集群的弹性伸缩 • EMR+OSS存算分离架构 2020.12 EMR 3.33 发布, 支持 Alluxio 2.4.0 • 支持ECS竞价实例 • 支持通过作业拉起临时集群 2021.1 EMR 4.7 发布, 支持 Alluxio 2.4.1 企业特性 • 采用MIT Kerberos + Apache Ranger 用户鉴权和权限管理 • 提供EMR APM监控集群和作业运行状况

6 . EMR 整体架构 PAI DataWorks NoteBook Application DEV & Jupyter/Zepplin Data Science workbench Metadata Job Scheduler Job Scheduler EMR-Workspace/ management EMR-Flow/Oozie Permission Hue/Superset Hive/Kafka & Alluxio TensorFl authorizatio MR Hive Spark Flink ow Storm Impala Presto n 监 YARN Kafka Druid Compute Engine 智能 Kerberos HBase 社区开源组件控 Ranger Delta Lake Alluxio 运 & 告 Kudu HDFS OSS JindoFS Data Storage 维 EMR开源软件增强警管 Sqoop，DataX Flume，Kafka Logstash，SLS Data Integration 控 EMR自研组件 Data Platform EMR Agent Management Basic Compute ECS/ECI/ACK（K8s） Source 阿里云其他云产品

7 . EMR 集群节点类型 Master • 部署Master服务 Gateway Gateway • Alluxio Master / HDFS NameNode / YARN ResourceManager... Core • 部署 Alluxio Worker / NodeManager / DataNode Master Master • 不支持弹性伸缩 Task • 部署 Alluxio Worker / YARN NodeManager / 无 DataNode Core Core Task • 支持竞价实例和弹性伸缩 • 支持GPU实例和异构计算 Core Core Task Gateway • 部署 Alluxio、Hadoop，Spark，Flink 等组件的客户端 Core Core Task • 支持部署不同部门采用不同的参数和配置

8 .数据湖存储与加速 Data Lake Storage & Acceleration 02

9 . 计算存储分离 - EMR + OSS 弹性计算 Spark Flink Presto …… l 根据周期/负载弹性伸缩 l 弹性资源采用按量+Spot实例方式优化成本（成本节省10%-20%）数据湖加速 EMR 数据湖加速 l 统一命名空间 l 对 HDFS/ OSS 的计算加速 OSS 数据湖存储 • 标准型 l 集中统一存储，避免数据不一致 • 低频型 l 高可靠，11个9数据可靠性 OSS • 归档型 l 可扩展，海量数据存储，EB级别，数十亿级别文件数目 • 深度归档 l 易维护，避免HDFS Federation的复杂度

10 . 基于 Alluxio 构建数据湖统一命名空间 Alluxio OSS Bucket 1 alluxio://host:port/ oss://bucket1/directory/ HDFS ODS DW hdfs://cluster1/directory/ Customer DW Customer OSS Bucket 2 Sales DM1 DM2 oss://bucket2/directory/ DM1 DM2 Sales

11 . Alluxio 分布式缓存 -- IaaS层选型容量型缓存高速型缓存 (HDD) (SSD) D2 I2&I3 更高的网络带宽 Higher bandwidth for data transformation • HDD 适合缓存全量数据、SSD 适合缓存热点； • 本地磁盘提供了极高的性能和性价比，同时也带来了运维的成本； • 支持磁盘的热更换，EMR 提供了整套硬件的监测、预警、通知、更换等操作完成主动运维流程。

12 .数据湖元数据 Data Lake Formation 03

13 . Data Lake Formation 数据湖计算引擎元数据管理 Databricks EMR PAI MaxCompute MC-Hologres l 统一元数据管理，解决元数据多引擎一致性问题 DataInsight l 自动生成元数据，降低使用成本 Data Lake Formation 访问控制元数据管理 l 集中数据访问权限控制，多引擎统一集中式赋权元数据编目元数据发现元数据抽取 l 数据访问日志审计，统计数据访问信息访问控制数据入湖访问权限控制访问日志审计 l 支持多种数据源入湖，MySQL、SLS、OTS、Kafka等 l 离线/实时入湖，支持Delta/Hudi等多种数据湖格式 l 数据入湖预处理，支持字段mapping/转换/自定义udf操作数据入湖多数据源入湖离线/实时入湖数据预处理 MySQL、SLS、OTS等支持Delta/Hudi格式自定义UDF、ETL流程数据湖存储OSS

14 .使用场景 Scenarios 04

15 .场景：数据湖统一命名空间统一命名空间 l 统一命名空间，避免使用各自前缀 fs.defaultFS = alluxio://emr-header/ hadoop fs -ls / l 统一数据入口，进行高效缓存

16 . 场景： OLAP 查询加速 EMR OLAP l 网络延时敏感； l 网络带宽存在瓶颈； …… l 存在热点数据；读取数据加速 l 利用 ALLUXIO 构建高速分布式缓存 l MEM+SSD 阿里云 Data Lake Formation 数据湖 OSS EMR HDFS

17 .THANKS !

1点赞

2收藏

11下载