确定删除吗?
1.
2.Hadoop小文件 & 冷文件分析 析源
3.• 小/冷文件的不利影响 • 小/冷文件的分析 – Jindo FsImageAnalyzer & APM • 小/冷文件应对策略 – JindoFs
4.小/冷文件的不利影响 – 存储
5.小/冷文件的不利影响 – 存储 小文件( < 75% block size [128M] ) • 内存资源占用过大 • 系统启动时间过长 • 带宽资源占用过多 • 冷文件 • 冷文件定义(依赖于业务场景) • 磁盘存储空间占用 • 其它同小文件
6.小文件的不利影响 – 存储
7.小文件的不利影响 – 计算 • 默认根据Block数来生成Map Task • 大量的随机IO • 并行度过高,影响作业调度性 能和吞吐率
8.小/冷文件的分析 - FsImage
9.小/冷文件的分析 – hdfs oiv hdfs oiv [OPTIONS] -i INPUTFILE -o OUTPUTFILE 优点: 通用 缺点: 高资源占用,FsImage太大可能导致OOM; 没有专业场景的分析
10.小/冷文件的分析 – Jindo FsImageAnalyzer
11.小/冷文件的分析 – 基于Jindo的APM文件分析
12.小/冷文件问题的应对策略 – 小文件的产生 • 流式作业 • 过高的并发度 • 源数据存在小文件 • 过多分区的数据表 • 业务需求
13.小/冷文件问题的应对策略 • 小文件 • 小文件合并 • 作业并行度合理规划 • 数据表分区合理规划 • 联邦集群 • 对象存储 • JindoFS • 冷文件 • 存储分层 • 定期清理
14.Q&A
15.