12-郑锴-大数据 meetup

播放视频

视频文档

12-郑锴-大数据 meetup

下载 15

示说网官方

发布于

968

人观看

#信息技术

郑锴，阿里云开源大数据平台数据湖存储负责人

议题：

高性能和低成本如何兼而有之？阿里云数据湖存储加速技术 JindoFS 的原理和最佳实践
议题介绍：这个 topic 主要讨论开源大数据领域数据湖存储技术的重要发展历程，分享我们在阿里云上这个领域一路走来的理念、探索和最佳实践。

展开查看详情

1 .性能和成本如何兼具，JindoFS 数据湖存储优化方案交流郑锴（铁杰）阿里云开源大数据平台数据湖存储 2021/06

2 .01 我为什么要在云上搞数据湖

3 .为什么是数据湖？数据湖是在后 Hadoop 时代的新旗帜

4 .为什么是在云上？数据湖成为开源大数据社区和云厂商之间的新纽带。云最好地诠释了数据湖，云原生也必然是数据湖的最终归宿。

5 .每个开发者眼中的数据湖都不一样数据湖核心三要素

6 .数据湖核心三要素包罗万象的数据

7 .数据湖核心三要素理想的数据湖存储

8 .数据湖核心三要素开放、丰富的计算

9 .理想的数据湖存储为什么 HDFS 不是？

10 .理想的数据湖存储那自己搭个对象存储呢？比如，我用 Hadoop Ozone。

11 .理想的数据湖存储为什么公有云对象存储才是？

12 .理想的数据湖存储公有云对象存储很好了，为什么还需要配套的优化方案？比如，社区的 Alluxio、JuiceFS。比如，我们大力打造的 JindoFS。

13 .02 阿里云上的 JindoFS

14 .一个大图：阿里云云原生数据湖图景分析 Analytics 人工智能 Artificial Intelligence 生态产品 Eco-products MaxCompute EMR(Spark+Presto) 机器学习 PAI EMR DataScience Databricks 数据洞察 MC-Hologres 实时计算Flink版自建 CDH 智能推荐AIRec 印刷文字识别自建 Hadoop Elasticsearch DataWorks 数据湖存储 OSS 数据湖构建 Data Lake Formation 结构化/半结构化/非结构化 ETL数据清洗 / 元数据 / 权限管理 JindoFS + OSS 数据湖存储加速方案和实践数据入湖数据集成 DataHub 实时计算Flink版

15 .聚焦：大图下的 JindoFS E数据湖元数据、数据湖管理、数据湖治理数据湖构建 Data Lake Formation DataWorks EE-MapReduce 开源数据湖分析套件（on ECS & ACK）不断丰富和开放的计算。。。 Kafka Jupyter PAI DataWorks ACK 上的大数据和 AI 训练 (Fluid) 智能运维管控监控 Hadoop Hive Spark Flink Databricks DataInsight (DDI) Sqoop Druid Impala & Presto ClickHouse ECS 自建 Hadoop 告警 Flume Delta/Hudi、Parquet/Orc/Avro ECS 自建 CDH Alluxio JindoFS JindoFS 数据湖存储 OSS（标准、低频、归档、深度归档）

16 .JindoFS 核心能力一：数据湖超级 SDK 一个核心优化层（Native Core） • 优化元数据操作 • 优化 IO，支持多种缓存策略 • 灵活的 AK、STS token 配置策略多个接口适配和丰富的 SDK 支持 • HDFS SDK，对标 HCFS 接口 • HDFS SDK 是开源大数据兼容性最高的接口事实标准，对 OSS 支持 JindoFS 首先要提 • ObjectStore SDK，对标 OSS SDK 供性能领先 Hadoop 社区和友商的 SDK 方案 • POSIX/FUSE，对标 OSS/S3 FUSE • POSIX 是最通用的存储接口，没有 JVM 羁绊，JindoFS FUSE 性能大幅领先 S3/OSS FUSE • Python SDK，对标 OSS2，S3 Boto • 核心优势：一份数据，多个视图；一个核心优化，多个 SDK 共享，性能最关键。 JindoFS SDK 后来居上，到目前为止，大量用户在使用，逐渐成为阿里云 OSS 数据湖场景的最佳实践。 Github: https://github.com/aliyun/alibabacloud-jindofs

17 . JindoFS 核心能力二：面向数据湖存储的缓存系统 Github: https://github.com/aliyun/alibabacloud-jindofs

18 .JindoFS 核心能力三：基于 OSS 的大数据存储系统 Github: https://github.com/aliyun/alibabacloud-jindofs

19 .JindoFS 核心能力四：首创业界多引擎列存加速 Github: https://github.com/aliyun/alibabacloud-jindofs

20 .JindoFS 核心能力五：数据热温冷分层，成本大幅优化数据热温冷分层 • 热数据，默认走 OSS 1 备份 + 本地 1 备份 • 温数据，走 OSS 1 备份标准存储 • 冷数据，走 OSS 1 备份归档存储核心功能 • 统计识别冷热，分级管理和存储，最大化提供服务质量和降低存储成本 • 支持按目录设定存储策略 • 支持按表、分区设定存储策略

21 .数据热温冷分层，一个例子 Hive 冷热分层以HDFS单副本10PB 每天partition数据50TB 高频率查询1-2周 <7天partition ECS本地盘 0.02 元/GB/月 10% 1 0.12 元/GB/月 12 最近30天partition OSS 标准型 20% 最近1月数据偶发查询 OSS 低频型 0.08 元/GB/月 8 20% 部分3月数据季报部分1年数据年报最近300天partition OSS 归档型 0.033 元/GB/月 8 60% 冷数据 >300天partition OSS 深度归档 0.015元/GB/月以HDFS单副本10PB HDFS本地盘方案 125万/月 OSS数据湖方案 65万/月

22 .03 数据湖最佳实践

23 .数禾—云上数据湖最佳实践简介：数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在 ECS 上搭建了自己的 Cloudera Hadoop 集群。但随着公司互联网金融业务的快速扩张发展，大数据团队承担的责任也越来越重，实时数仓需求，日志分析需求，即席查询需求，数据分析需求等，每个业务提出的需求都极大的考验这个 Cloudera Hadoop 集群的能力。为了减轻 Cloudera 集群的压力，我们结合自身业务情况，在阿里云上落地一个适合数禾当前现实状况的数据湖。作者：程俊杰，当前在数禾科技大数据部担任大数据架构师的职位，负责阿里云平台产品的架构开发和维护，曾在1号店、拍拍贷、2345 从事大数据平台架构方面的工作。某云阿里云数据湖设计阿里云 EMR 治理阿里云 OSS 治理阿里云湖仓一体统一存储和元数据管理数据湖构建多EMR多OSS桶调整EMR预伸缩时间数仓ODS多版本桶治理多样化入湖模版云上自建 CDH EMR弹性伸缩更改EMR弹性伸缩策略数仓日志桶治理数据湖元数据管理云上混合架构 CDH + EMR 数据鉴权和脱敏 EMR机器组的选择数仓桶和集市桶治理打通 Dataphin 访问监控告警管理购买RI预留抵扣券监控桶内对象打通 MaxCompute 访问 … https://developer.aliyun.com/article/781803 Tips：数据湖的设计、构建、分析和治理是一个循序渐进的过程

24 .微博—海量小文件无须规整，直接训练加速海量小文件加速场景 • AIoT 产生大量的小文件数据存放在 OSS 数据湖上 • TensorFlow/PyTorch 引擎直接基于这些材料进行 AI 训练，需要极速优化小文件的加载读取效率小文件缓存加速 • 小文件（< 1M）按照一致性 hash 算法分布式存放在多个节点上的多块磁盘上，用 TitanDB 保存 • 客户端尽可能一次 RPC 即可读取到文件缓存数据 • 缓存节点上读取文件时，尽可能命中内存缓存、系统缓存核心优势 • 海量训练数据集文件无须提前规整，直接训练 • 支持上亿超大训练数据集文件数 • 支持从 OSS、S3、HDFS 等各种数据源预热预加载 • 支持阿里云 ACK 上通过 Fluid 框架云原生部署速度提升 18 倍！微博海量深度学习模型训练效率跃升的秘密

25 .JindoFS + OSS 最佳实践—集锦 Github: https://github.com/aliyun/alibabacloud-jindofs JindoFS + OSS 数据湖用户交流钉钉群： 33413498 每周二直播分享，在线专家答疑数据迁移 OSS 访问加速 JindoFS 缓存和训练加速 JindoTable 计算加速访问 OSS 这类对象存储最快的方式：JindoFS SDK Hadoop/Spark 访问 OSS 加速 Presto 如何高效查询 OSS 数据高效迁移 HDFS 海量文件到 OSS Impala 如何高效查询 OSS 数据 Spark 访问 OSS 透明缓存加速数据无忧：利用 checksum 迁移 HDFS 数据打开 OSS 多版本：合规和分析两不误 Presto 访问 OSS 透明缓存加速 Spark 对 OSS 上的 Parquet 数据进行查询加速到 OSS 高效查看 OSS 数据的 access log 指定表和分区来预先缓存，查询分析更高效 Spark 对 OSS 上的 ORC 数据进行查询加速如何将 HDFS 数据归档到 OSS Python 访问 OSS 加速云上计算云下数据：HDFS 透明缓存加速 Hive 对 OSS 上的 Parquet 数据进行查询加速如何将 Hive 数据按分区归档到 OSS POSIX/Fuse 访问 OSS 加速结合 Fluid 对 OSS 上的数据进行训练加速 Spark 对 HDFS 上的 Parquet 数据进行查询加速如何将 Kudu 数据备份到 OSS Tensorflow 访问 OSS 加结合 Fluid 对 HDFS 上的小文件进行训练加速 Spark 对 HDFS 上的 ORC 数据进行查询加速分层更高效，对 Hive 表进行热度/冷度统计 PyTorch 访问 OSS 加速结合 Fluid 对 OSS 上的小文件进行训练加速对 Hive 表进行高效小文件合并 Flink 高效 sink 写入 OSS Flume 高效写入 OSS Sqoop 高效写入 OSS Druid 如何高效查询 OSS 数据

26 . E-MapReduce | E-MapReduce | 对象存储 OSS 每周二 16：00 锁定系列直播 JindoFS + OSS 数据湖用户交流钉钉群： 33413498 ▲ 欢迎钉钉扫码入群交流 ▲

2点赞

5收藏

15下载