- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Hadoop小文件冷文件分析
主题:
Hadoop 小文件/冷文件分析
时间:
2020.7.2 19:00
讲师:
郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。
直播简介:
庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。
展开查看详情
1 .
2 .Hadoop小文件 & 冷文件分析 析源
3 .• 小/冷文件的不利影响 • 小/冷文件的分析 – Jindo FsImageAnalyzer & APM • 小/冷文件应对策略 – JindoFs
4 .小/冷文件的不利影响 – 存储
5 .小/冷文件的不利影响 – 存储 小文件( < 75% block size [128M] ) • 内存资源占用过大 • 系统启动时间过长 • 带宽资源占用过多 • 冷文件 • 冷文件定义(依赖于业务场景) • 磁盘存储空间占用 • 其它同小文件
6 .小文件的不利影响 – 存储
7 .小文件的不利影响 – 计算 • 默认根据Block数来生成Map Task • 大量的随机IO • 并行度过高,影响作业调度性 能和吞吐率
8 .小/冷文件的分析 - FsImage
9 .小/冷文件的分析 – hdfs oiv hdfs oiv [OPTIONS] -i INPUTFILE -o OUTPUTFILE 优点: 通用 缺点: 高资源占用,FsImage太大可能导致OOM; 没有专业场景的分析
10 .小/冷文件的分析 – Jindo FsImageAnalyzer
11 .小/冷文件的分析 – 基于Jindo的APM文件分析
12 .小/冷文件问题的应对策略 – 小文件的产生 • 流式作业 • 过高的并发度 • 源数据存在小文件 • 过多分区的数据表 • 业务需求
13 .小/冷文件问题的应对策略 • 小文件 • 小文件合并 • 作业并行度合理规划 • 数据表分区合理规划 • 联邦集群 • 对象存储 • JindoFS • 冷文件 • 存储分层 • 定期清理
14 .Q&A
15 .