申请试用
HOT
登录
注册
 
12-郑锴-大数据 meetup
2 点赞
5 收藏
12下载
示说网官方
/
发布于
/
161
人观看

郑锴,阿里云开源大数据平台数据湖存储负责人

议题:

高性能和低成本如何兼而有之?阿里云数据湖存储加速技术 JindoFS 的原理和最佳实践
议题介绍:这个 topic 主要讨论开源大数据领域数据湖存储技术的重要发展历程,分享我们在阿里云上这个领域一路走来的理念、探索和最佳实践。

展开查看详情

1.性能和成本如何兼具,JindoFS 数据湖存储优化方案交流 郑锴(铁杰) 阿里云 开源大数据平台 数据湖存储 2021/06

2.01 我为什么要在云上搞数据湖

3.为什么是数据湖? 数据湖是在后 Hadoop 时代的新旗帜

4.为什么是在云上? 数据湖成为开源大数据社区和云厂商之间的新纽带。 云最好地诠释了数据湖,云原生也必然是数据湖的最终归宿。

5.每个开发者眼中的数据湖都不一样 数据湖核心三要素

6.数据湖核心三要素 包罗万象的数据

7.数据湖核心三要素 理想的数据湖存储

8.数据湖核心三要素 开放、丰富的计算

9.理想的数据湖存储 为什么 HDFS 不是?

10.理想的数据湖存储 那自己搭个对象存储呢? 比如,我用 Hadoop Ozone。

11.理想的数据湖存储 为什么公有云对象存储才是?

12.理想的数据湖存储 公有云对象存储很好了,为什么还需要配套的优化方案? 比如,社区的 Alluxio、JuiceFS。 比如,我们大力打造的 JindoFS。

13.02 阿里云上的 JindoFS

14.一个大图:阿里云云原生数据湖图景 分析 Analytics 人工智能 Artificial Intelligence 生态产品 Eco-products MaxCompute EMR(Spark+Presto) 机器学习 PAI EMR DataScience Databricks 数据洞察 MC-Hologres 实时计算Flink版 自建 CDH 智能推荐AIRec 印刷文字识别 自建 Hadoop Elasticsearch DataWorks 数据湖存储 OSS 数据湖构建 Data Lake Formation 结构化/半结构化/非结构化 ETL数据清洗 / 元数据 / 权限管理 JindoFS + OSS 数据湖存储加速方案和实践 数据入湖 数据集成 DataHub 实时计算Flink版

15.聚焦:大图下的 JindoFS E数据湖元数据、数据湖管理、数据湖治理 数据湖构建 Data Lake Formation DataWorks EE-MapReduce 开源数据湖分析套件(on ECS & ACK) 不断丰富和开放的计算 。。。 Kafka Jupyter PAI DataWorks ACK 上的大数据和 AI 训练 (Fluid) 智能运维管控 监控 Hadoop Hive Spark Flink Databricks DataInsight (DDI) Sqoop Druid Impala & Presto ClickHouse ECS 自建 Hadoop 告警 Flume Delta/Hudi、Parquet/Orc/Avro ECS 自建 CDH Alluxio JindoFS JindoFS 数据湖存储 OSS(标准、低频、归档、深度归档)

16.JindoFS 核心能力一:数据湖超级 SDK 一个核心优化层(Native Core) • 优化元数据操作 • 优化 IO,支持多种缓存策略 • 灵活的 AK、STS token 配置策略 多个 接口适配和丰富的 SDK 支持 • HDFS SDK,对标 HCFS 接口 • HDFS SDK 是开源大数据兼容性最高的接口事实标准,对 OSS 支持 JindoFS 首先要提 • ObjectStore SDK,对标 OSS SDK 供性能领先 Hadoop 社区和友商的 SDK 方案 • POSIX/FUSE,对标 OSS/S3 FUSE • POSIX 是最通用的存储接口,没有 JVM 羁绊,JindoFS FUSE 性能大幅领先 S3/OSS FUSE • Python SDK,对标 OSS2,S3 Boto • 核心优势:一份数据,多个视图;一个核心优化,多个 SDK 共享,性能最关键。 JindoFS SDK 后来居上,到目前为止,大量用户在使用,逐渐成为阿里云 OSS 数据湖场 景的最佳实践。 Github: https://github.com/aliyun/alibabacloud-jindofs

17. JindoFS 核心能力二:面向数据湖存储的缓存系统 Github: https://github.com/aliyun/alibabacloud-jindofs

18.JindoFS 核心能力三:基于 OSS 的大数据存储系统 Github: https://github.com/aliyun/alibabacloud-jindofs

19.JindoFS 核心能力四:首创业界多引擎列存加速 Github: https://github.com/aliyun/alibabacloud-jindofs

20.JindoFS 核心能力五:数据热温冷分层,成本大幅优化 数据热温冷分层 • 热数据,默认走 OSS 1 备份 + 本地 1 备份 • 温数据,走 OSS 1 备份标准存储 • 冷数据,走 OSS 1 备份归档存储 核心功能 • 统计识别冷热,分级管理和存储,最 大化提供服务质量和降低存储成本 • 支持按目录设定存储策略 • 支持按表、分区设定存储策略

21.数据热温冷分层,一个例子 Hive 冷热分层 以HDFS单副本10PB 每天partition数据50TB 高频率查询1-2周 <7天partition ECS本地盘 0.02 元/GB/月 10% 1 0.12 元/GB/月 12 最近30天partition OSS 标准型 20% 最近1月数据偶发查询 OSS 低频型 0.08 元/GB/月 8 20% 部分3月数据季报 部分1年数据年报 最近300天partition OSS 归档型 0.033 元/GB/月 8 60% 冷数据 >300天partition OSS 深度归档 0.015元/GB/月 以HDFS单副本10PB HDFS本地盘方案 125万/月 OSS数据湖方案 65万/月

22.03 数据湖最佳实践

23.数禾—云上数据湖最佳实践 简介: 数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在 ECS 上搭建了自己的 Cloudera Hadoop 集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求, 即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个 Cloudera Hadoop 集群的能力。为了减轻 Cloudera 集群的压力,我们结合自身业务情况,在阿里云上落地一个适合数禾当前现实状况的数据湖。 作者:程俊杰,当前在数禾科技大数据部担任大数据架构师的职位,负责阿里云平台产品的架构开发和维护,曾在1号店、拍拍贷、2345 从事大数据平台架构方面的工作。 某云 阿里云数据湖设计 阿里云 EMR 治理 阿里云 OSS 治理 阿里云湖仓一体 统一存储和元数据管理 数据湖构建 多EMR多OSS桶 调整EMR预伸缩时间 数仓ODS多版本桶治理 多样化入湖模版 云上自建 CDH EMR弹性伸缩 更改EMR弹性伸缩策略 数仓日志桶治理 数据湖元数据管理 云上混合架构 CDH + EMR 数据鉴权和脱敏 EMR机器组的选择 数仓桶和集市桶治理 打通 Dataphin 访问 监控告警管理 购买RI预留抵扣券 监控桶内对象 打通 MaxCompute 访问 … https://developer.aliyun.com/article/781803 Tips:数据湖的设计、构建、分析和治理是一个循序渐进的过程

24.微博—海量小文件无须规整,直接训练加速 海量小文件加速场景 • AIoT 产生大量的小文件数据存放在 OSS 数据湖上 • TensorFlow/PyTorch 引擎直接基于这些材料进行 AI 训 练,需要极速优化小文件的加载读取效率 小文件缓存加速 • 小文件(< 1M)按照一致性 hash 算法分布式存放在多 个节点上的多块磁盘上,用 TitanDB 保存 • 客户端尽可能一次 RPC 即可读取到文件缓存数据 • 缓存节点上读取文件时,尽可能命中内存缓存、系统缓存 核心优势 • 海量训练数据集文件无须提前规整,直接训练 • 支持上亿超大训练数据集文件数 • 支持从 OSS、S3、HDFS 等各种数据源预热预加载 • 支持阿里云 ACK 上通过 Fluid 框架云原生部署 速度提升 18 倍!微博海量深度学习模型训练效率跃升的秘密

25.JindoFS + OSS 最佳实践—集锦 Github: https://github.com/aliyun/alibabacloud-jindofs JindoFS + OSS 数据湖用户交流钉钉群: 33413498 每周二直播分享,在线专家答疑 数据迁移 OSS 访问加速 JindoFS 缓存和训练加速 JindoTable 计算加速 访问 OSS 这类对象存储最快的方式:JindoFS SDK Hadoop/Spark 访问 OSS 加速 Presto 如何高效查询 OSS 数据 高效迁移 HDFS 海量文件 到 OSS Impala 如何高效查询 OSS 数据 Spark 访问 OSS 透明缓存加速 数据无忧:利用 checksum 迁移 HDFS 数据 打开 OSS 多版本:合规和分析两不误 Presto 访问 OSS 透明缓存加速 Spark 对 OSS 上的 Parquet 数据进行查询加速 到 OSS 高效查看 OSS 数据的 access log 指定表和分区来预先缓存,查询分析更高效 Spark 对 OSS 上的 ORC 数据进行查询加速 如何将 HDFS 数据归档到 OSS Python 访问 OSS 加速 云上计算云下数据:HDFS 透明缓存加速 Hive 对 OSS 上的 Parquet 数据进行查询加速 如何将 Hive 数据按分区归档到 OSS POSIX/Fuse 访问 OSS 加速 结合 Fluid 对 OSS 上的数据进行训练加速 Spark 对 HDFS 上的 Parquet 数据进行查询加速 如何将 Kudu 数据备份到 OSS Tensorflow 访问 OSS 加 结合 Fluid 对 HDFS 上的小文件进行训练加速 Spark 对 HDFS 上的 ORC 数据进行查询加速 分层更高效,对 Hive 表进行热度/冷度统计 PyTorch 访问 OSS 加速 结合 Fluid 对 OSS 上的小文件进行训练加速 对 Hive 表进行高效小文件合并 Flink 高效 sink 写入 OSS Flume 高效写入 OSS Sqoop 高效写入 OSS Druid 如何高效查询 OSS 数据

26. E-MapReduce | E-MapReduce | 对象存储 OSS 每周二 16:00 锁定系列直播 JindoFS + OSS 数据湖用户交流钉钉群: 33413498 ▲ 欢迎钉钉扫码入群交流 ▲

2 点赞
5 收藏
12下载