Hadoop小文件冷文件分析

主题:
Hadoop 小文件/冷文件分析

时间:
2020.7.2 19:00

讲师:
郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

直播简介:
庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。

展开查看详情

1.

2.Hadoop小文件 & 冷文件分析 析源

3.• 小/冷文件的不利影响 • 小/冷文件的分析 – Jindo FsImageAnalyzer & APM • 小/冷文件应对策略 – JindoFs

4.小/冷文件的不利影响 – 存储

5.小/冷文件的不利影响 – 存储 小文件( < 75% block size [128M] ) • 内存资源占用过大 • 系统启动时间过长 • 带宽资源占用过多 • 冷文件 • 冷文件定义(依赖于业务场景) • 磁盘存储空间占用 • 其它同小文件

6.小文件的不利影响 – 存储

7.小文件的不利影响 – 计算 • 默认根据Block数来生成Map Task • 大量的随机IO • 并行度过高,影响作业调度性 能和吞吐率

8.小/冷文件的分析 - FsImage

9.小/冷文件的分析 – hdfs oiv hdfs oiv [OPTIONS] -i INPUTFILE -o OUTPUTFILE 优点: 通用 缺点: 高资源占用,FsImage太大可能导致OOM; 没有专业场景的分析

10.小/冷文件的分析 – Jindo FsImageAnalyzer

11.小/冷文件的分析 – 基于Jindo的APM文件分析

12.小/冷文件问题的应对策略 – 小文件的产生 • 流式作业 • 过高的并发度 • 源数据存在小文件 • 过多分区的数据表 • 业务需求

13.小/冷文件问题的应对策略 • 小文件 • 小文件合并 • 作业并行度合理规划 • 数据表分区合理规划 • 联邦集群 • 对象存储 • JindoFS • 冷文件 • 存储分层 • 定期清理

14.Q&A

15.