申请试用
HOT
登录
注册
 
云原生数据湖构建与分析最佳实践
2 点赞
1 收藏
8下载
MobTech
/
发布于
/
93
人观看

“数据湖”正在被越来越多人提起,尽管定义并不统一,但企业们都已纷纷下水实践。
这里我们将告诉大家如何基于阿里云OSS、数据湖构建DLF、DataWorks等基础服务,结合阿里云E-MapReduce丰富的计算引擎和JindoFS企业级数据湖加速,打造一个全新云原生企业级数据湖体系。

WechatIMG1629.png

展开查看详情

1.云原生数据湖构建与分析最佳实践 阿里云开源大数据平台 健身

2. 背景介绍 架构分析 CONTENT 性能与成本 客户案例

3. 背景介绍 架构分析 CONTENT 性能与成本 客户案例

4.大数据 海量数据 数据种类 丰富 Volume Variety Value Velocity 发掘数据 快速计算 的价值

5.第一代云上开源大数据平台 用户 EMR 集群 MapReduce Hive HBase Spark Storm Kafka l 数据快速增长,存储成本高 l HDFS NameNode横向扩展 HDFS 磁盘 l HDFS Federation运维复杂度比较高 ECS (本地盘机型、云盘机型)

6.第二代云上开源大数据平台 用户 EMR 集群 l 引入OSS Kafka 主要实现 HDFS 接口,体验一般 Hive HBase Spark l Storm Druid Impala Presto Flink l 成本没有明显降低 Kudu HDFS 磁盘 ECS (本地盘机型、云盘机型)

7.第三代云上开源大数据平台 l 集中统一存储 l 数据分层存储 l 计算资源弹性伸缩 l 规避HDFS运维复杂度

8. 背景介绍 架构分析 CONTENT 性能与成本 客户案例

9.EMR 数据湖架构 PAI DataWorks NoteBook Application DEV & Jupyter/Zepplin Data Science workbench Metadata Job Scheduler 社区开源组件 Job Scheduler EMR-Workspace/ management 监 Permission& Hue/Superset EMR-Flow/Oozie DLF/Hive/Kafka 智 控 authorizatio MR Hive Spark Flink TensorFl Storm Impala Presto 能 n ow & EMR开源软件增强 Compute Engine 运 告 Kerberos YARN Click HBase Kafka Druid 维 Ranger house 警 管 Delta Lake Hudi JindoFS Alluxio EMR自研组件 HDFS Data Storage 控 Kudu OSS 阿里云其他云产品 Sqoop,DataX Flume,Kafka Logstash,SLS Data Intergration Data Platform EMR Agent Management Basic Compute ECS/ECI/ACK(K8s) Source

10.数据湖计算 – 弹性伸缩 • 基于云的特性,获得资源的 Active Standby 弹性 阿里云 Master Master – 计算资源的弹性 ECS Resource pool – 存储资源的弹性 • 灵活的弹性集群 – 计算与存储分离,只在需要的时候 Core Task 才添加计算 – EMR的动态计算组,按照集群状态 Core Task 来进行伸缩 动态弹性资源 – Spot instance Core Task 常驻集群 – 包月+按量组合 • 弹性伸缩 Core Task – 按照时间 – 按照负载 计算和存储节点 计算节点

11.数据湖计算 – 容器 • • •

12.数据湖存储 – JindoFS 易用 l 支持主要开源计算框架,且对框架透明 l 无需修改用户对OSS的使用方案 l 多种缓存设备内存/SSD/HDD l 支持FUSE文件挂载 企业级 l 高数据可靠性,11个9 Jindo JindoFS SDK Namespace Service l 高可用架构,支持Auto Failover Block location Ops l 数据权限管理,Ranger列级别权限管理 Write/read local cached block l Audit Log审计 Sorag Jindo Storage Service Sorag Jindo Storage Service l 小文件分析 e Local Storage Write/read OSS object e Local Storage Servic HDD SSD DRAM Servic HDD SSD DRAM 高性能 e… e… 对比社区流行方案,TPC-DS 1TB l Spark SQL 2.4.5 性能提升27% l PrestoSQL 0.338 性能提升93% l Hive ETL 2.3.5性能提升42% https://github.com/aliyun/alibabacloud-jindofs

13.数据湖元数据 Data Lake Formation 数据湖计算引擎 元数据管理 Databricks EMR PAI MaxCompute MC-Hologres l 统一元数据管理,解决元数据多引擎一致性问题 DataInsight l 自动生成元数据,降低使用成本 Data Lake Formation 访问控制 元数据管理 l 集中数据访问权限控制,多引擎统一集中式赋权 l 数据访问日志审计,统计数据访问信息 访问控制 数据入湖 l 支持多种数据源入湖,MySQL、SLS、OTS、Kafka等 l 离线/实时入湖,支持Delta/Hudi等多种数据湖格式 l 数据入湖预处理,支持字段mapping/转换/自定义udf操 数据入湖 作 数据湖存储OSS

14. 背景介绍 架构分析 CONTENT 性能与成本 客户案例

15.性能与成本 – Remote Shuffle Service • • •

16.性能与成本 – 数据预计算 • • • •

17.性能与成本 – 数据预组织 • • • •

18.性能与成本 – 列存加速 • • • • •

19.性能与成本 – 分层存储 ECS partition 50TB ECS 0.02 /GB/ <7 partition 1-2 Shuffle 0.12 /GB/ HDFS 3 + Shuffle <20TB OSS 30 partition OSS 0.12 /GB/ 20% 1 300 partition OSS 0.08 /GB/ 20% 3 1 OSS 0.033 /GB/ 60% >300 partition OSS 0.015 /GB/

20. 背景介绍 架构分析 CONTENT 性能与成本 客户案例

21. 数据湖最佳实践 客户需求 游戏业务 广告业务 Ø 数百节点HDP,版本维护成本高,软件升级困难 运营效果分析 DataWorks EMR Spark Ø 物理机弹性能力不足,需要云上的弹性能力和扩张能力 EMR Gateway AB测试 Ø 计算和存储绑定,硬件升级成本高 大数据 AI平台 开发平台 处理数据 关卡难度训练 EMR Druid 即席查询 Deep Storage EMR Hadoop 数据采集 数据湖方案 Ø 采用OSS替代HDFS,作为企业统一数据湖,采用分层存储降 统一数据平台 低用户使用成本 EMR Kafka MapReduce Hive Tez Presto 用户游戏 Ø 使用EMR JindoFS对接Hive/Presto/Tez计算引擎 行为数据 消息队列 EMR JindoFS Block模式 热数据 >300TB Ø AI模型训练采用Spark弹性伸缩集群,弹性伸缩资源比率占集 群算力的90% 阿里云 Ø Druid采用JindoFS做为Deep Storage,实现 标准型 XPB 低频型 XPB 归档型 XPB OSS

22.数据湖最佳实践 客户简介 l 国内互联网金融头部客户 Xray业务平台 l 每个业务均采用独立的集群模式 EMR Presto EMR Gateway l AWS EMR典型客户,根据部门和数据划分20-30集群,每天 大数据 千台规模节点弹性伸缩 调度平台 分析 Jupyter 平台 Airflow 客户需求 l 用户服务了大量内部和外部用户,且数据较为敏感,要求严 EMR Hadoop 元数据 EMR Hadoop 格的数据权限隔离。 Hive Meta Jindo Meta l 大量OSS的rename等操作,性能要求高 Hive Hive 权限控制 l 根据任务自动大规模弹性扩缩容 RAM EMR JindoFS Cache模式 EMR JindoFS Cache模式 Ranger 客户价值 数据湖 业务OSS A Bucket 业务 B Bucket l 通过JindoFS满足了用户的数据计算性能需求,尤其是部分 操作场景上,在有限带宽的情况下和S3的性能表现一致。 l EMR Ranger对数据湖数据权限严格管控。 阿里云 日志数据 外部数据 RDS l 企业能力如资源组等的支持,协助进行负责的资源隔离能力

23.

2 点赞
1 收藏
8下载