- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
【数据湖JindoFS+OSS 实操干货36讲】第11讲
概念简述
JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。
JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。
JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。
GitHub 地址:
https://github.com/aliyun/alibabacloud-jindofs
课程背景
为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!
本期主题:
打开 OSS 多版本:合规和分析两不误
主讲人:
辰石-阿里巴巴计算平台事业部 EMR 技术专家
展开查看详情
1 . | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【数据迁移】 打开OSS多版本:合规和分析两不误 演讲人:殳鑫鑫(辰石) 阿里巴巴计算平台事业部 开源大数据平台技术专家 2021.06.03
2 . 背景介绍 主要功能 CONTENT 实操
3 .阿里云对象存储OSS • 阿里云对象存储OSS • 一种海量、安全、低成本、高可靠的云存储服务。 • 适合存放任意类型的文件。 • 提供容量和处理能力弹性扩展。 • 提供多种存储类型供选择 • 数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于 99.995%。
4 .OSS支持功能 • 数据的上传以及下载。 • OSS对象生命周期的管理。 • 同城/异地的数据容灾。 • OSS对象数据保留合规。 • 数据的加密解密。 • 数据的多版本管理。 https://help.aliyun.com/?spm=a2c4g.11174283.6.538.70a37da2T4gFyT
5 .OSS对象数据多版本管理 • 功能介绍 • 单份数据在OSS上存在多个版本。 • 使用场景 • 数据误删除:当前OSS不提供回收站,如果要恢复已删除的数据 可以使用OSS多版本。 • 文件被覆盖:对于网盘、在线协作类产品,文件会被频繁修改, 针对文件的编辑会产生大量的临时版本。您可以使用版本控制功 能找回某个时间点的版本。
6 .OSS对象数据多版本状态 • 未开启状态 • 默认情况下OSS 版本状态为未开启的状态,一旦开启,无法退回 到未开启状态。 • 开启状态 • 当OSS版本控制处于开启状态,OSS将为新上传的对象生成全局 唯一的版本ID。 • 暂停状态 • OSS将为新上传的Object生成特殊字符串为“null”的版本ID。
7 .开启/暂停OSS多版本
8 .使用注意事项 • 功能互斥 • 同一Bucket中,版本控制与合规保留策略或镜像回源无法同时配 置。 • 如果Bucket已开启版本控制,上传文件时附加的覆盖同名文件请 求头x-oss-forbid-overwrite将不生效。 • 使用注意事项 • 开启多版本本身不会产生任何费用,但是由于开启多版本,同一 对象会存在多个版本的历史数据,会增加数据的存储成本。 • OSS多版本历史版本过多可能导致List过慢的问题,建议配置生命 周期定期清理。
9 .查看对象的多版本 • 控制台查看
10 .查看对象的多版本 • Ossutil64命令行查看
11 .JindoFS OSS SDK的优化 • 存在问题 由于Hive/Spark任务在任务执行过程中会产生临时数据,在任务执 行成功后这些临时数据会被删除,因此会产生很多历史版本数据, 导致后续任务List过慢,后续任务性能会受到影响。 • JindoFS OSS SDK优化 JindoFS对于这种情况存在优化, 对于committer产生的临时数据的历 史版本信息可以通过设置 fs.oss.committer.magic.clean.versions.enabled为true可以清理临时 数据历史版本。
12 . E-MapReduce | E-MapReduce | 对象存储OSS 每周二 16:00 锁定系列直播 ▲ 欢迎钉钉扫码入群交流 ▲