申请试用
HOT
登录
注册
 
【数据湖JindoFS+OSS 实操干货36讲】第11讲
0 点赞
0 收藏
0下载
Apache Spark中国技术交流社区
/
发布于
/
39
人观看

概念简述

JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。

JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。

JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。

GitHub 地址:

https://github.com/aliyun/alibabacloud-jindofs

课程背景

为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!

本期主题:

打开 OSS 多版本:合规和分析两不误

主讲人:

辰石-阿里巴巴计算平台事业部 EMR 技术专家

展开查看详情

1. | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【数据迁移】 打开OSS多版本:合规和分析两不误 演讲人:殳鑫鑫(辰石) 阿里巴巴计算平台事业部 开源大数据平台技术专家 2021.06.03

2. 背景介绍 主要功能 CONTENT 实操

3.阿里云对象存储OSS • 阿里云对象存储OSS • 一种海量、安全、低成本、高可靠的云存储服务。 • 适合存放任意类型的文件。 • 提供容量和处理能力弹性扩展。 • 提供多种存储类型供选择 • 数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于 99.995%。

4.OSS支持功能 • 数据的上传以及下载。 • OSS对象生命周期的管理。 • 同城/异地的数据容灾。 • OSS对象数据保留合规。 • 数据的加密解密。 • 数据的多版本管理。 https://help.aliyun.com/?spm=a2c4g.11174283.6.538.70a37da2T4gFyT

5.OSS对象数据多版本管理 • 功能介绍 • 单份数据在OSS上存在多个版本。 • 使用场景 • 数据误删除:当前OSS不提供回收站,如果要恢复已删除的数据 可以使用OSS多版本。 • 文件被覆盖:对于网盘、在线协作类产品,文件会被频繁修改, 针对文件的编辑会产生大量的临时版本。您可以使用版本控制功 能找回某个时间点的版本。

6.OSS对象数据多版本状态 • 未开启状态 • 默认情况下OSS 版本状态为未开启的状态,一旦开启,无法退回 到未开启状态。 • 开启状态 • 当OSS版本控制处于开启状态,OSS将为新上传的对象生成全局 唯一的版本ID。 • 暂停状态 • OSS将为新上传的Object生成特殊字符串为“null”的版本ID。

7.开启/暂停OSS多版本

8.使用注意事项 • 功能互斥 • 同一Bucket中,版本控制与合规保留策略或镜像回源无法同时配 置。 • 如果Bucket已开启版本控制,上传文件时附加的覆盖同名文件请 求头x-oss-forbid-overwrite将不生效。 • 使用注意事项 • 开启多版本本身不会产生任何费用,但是由于开启多版本,同一 对象会存在多个版本的历史数据,会增加数据的存储成本。 • OSS多版本历史版本过多可能导致List过慢的问题,建议配置生命 周期定期清理。

9.查看对象的多版本 • 控制台查看

10.查看对象的多版本 • Ossutil64命令行查看

11.JindoFS OSS SDK的优化 • 存在问题 由于Hive/Spark任务在任务执行过程中会产生临时数据,在任务执 行成功后这些临时数据会被删除,因此会产生很多历史版本数据, 导致后续任务List过慢,后续任务性能会受到影响。 • JindoFS OSS SDK优化 JindoFS对于这种情况存在优化, 对于committer产生的临时数据的历 史版本信息可以通过设置 fs.oss.committer.magic.clean.versions.enabled为true可以清理临时 数据历史版本。

12. E-MapReduce | E-MapReduce | 对象存储OSS 每周二 16:00 锁定系列直播 ▲ 欢迎钉钉扫码入群交流 ▲

0 点赞
0 收藏
0下载