阿里云EMR入门课第三讲-EMR的存储解决方案

第三课:EMR 的存储解决方案
本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础
产品链接:https://www.aliyun.com/product/emapreduce

更多产品相关信息请加入钉钉群讨论

展开查看详情

1.EMR的存储解决⽅案 姚舜扬 · 阿⾥巴巴 / 技术专家

2. 01 EMR提供的存储选择概述 02 CONTENT JindoFS玩转云原⽣存储 ⽬录 >> 03 JindoFS使⽤实战 04 云上云下互联

3.01 EMR提供的存储选择概述 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

4.传统⼤数据存储解决⽅案——HDFS 集群A 集群B HDFS 1 HDFS 2

5.云原⽣存储解决⽅案 HDFS JindoFS 容量受限 海量 强运维 弱运维 弹性差 弹性好 成本较高 成本低

6.02 JindoFS玩转云原⽣存储 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

7.什么是JindoFS • 适配对象存储 OSS,提供Hadoop Compatible FileSystem(HCFS) • 提供缓存加速能力(Cache模式) • 结合对象存储深度定制的高性能Block模式

8.基础使⽤ • 海量规模优化支持,特别针对大目录操作稳定、高效 • 文件语义适配完善 • 高级特性:Job Committer 1、Flink file sink connector 2 1 https://help.aliyun.com/document_detail/182099.html?spm=a2c4g.11186623.6.954.5b292d6bmeMbo1 2 文档即将发布

9.缓存模式使⽤ • 打开缓存开关,可利用本地存储资源缓存加速OSS上的数据 1 • LRU 策略自动清理冷数据块 • 异步触发清理,不影响读写 storage.watermark.high.ratio storage.watermark.low.ratio 1 https://help.aliyun.com/document_detail/182093.html?spm=a2c4g.11186623.6.948.4e9b6d67qfqPC4

10.块存储模式使⽤ • 块存储模式(Block)适用于高性能数据处理场景 1 • 元数据由 NamespaceService 管理,文件数据以数据块形式存储在OSS上,本地对数据块进行缓存 • 性能和体验上对标 HDFS NamespaceService Block 1 Block 2 File A Block 3 Block 4 1 https://help.aliyun.com/document_detail/182092.html?spm=a2c4g.11186623.6.947.5ec37f4eiTn4lg

11.⾼级特性 • FUSE支持 • 权限控制 • 分层存储(coming soon)

12.03 JindoFS使⽤实战 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

13.使⽤实践 • 存量数据迁移,Jindo DistCp 1 • 简单使用示例 • 缓存相关配置示例 • Block模式使用演示 1 https://help.aliyun.com/document_detail/182100.html?spm=a2c4g.11186623.6.955.67d42330gEYp7y

14.04 云上云下互联 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途

15.JindoFS加速云下存储

16.