EMR直播 - 大规模文件元数据优化- 诚历

阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
邀请你加入钉钉群聊Apache Spark中国技术交流社区,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,X7S/0/QcrLMkK7QZ5sw2oTvoYW49u0g5dvGu7PW+sm4=&_dt_no_comment=1&origin=11
微信公众号:Apache Spark技术交流社区


主题:
大规模文件元数据下的耗时操作优化

时间:
2020.4.23(周四)19:00

https://developer.aliyun.com/live/2684

讲师:
孙大鹏花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

直播简介:
本次直播主要介绍大数据生态中常见的元数据服务部署形态,并分析大规模文件元数据下在生产环境中可能遇到的问题,以及针对这些问题如何进行优化和调整。

展开查看详情

1.大规模文件元数据下的 耗时操作优化 诚历

2.• 常见的元数据部署形态 • 大规模元数据服务的常见瓶颈&优化方法 • JindoFS 元数据服务

3.常见的元数据部署形态 • Part I

4.分布式系统元数据服务设计 • 如何解决单点问题 • 元数据能支持多大数据/访问量

5.如何解决单点问题(高可用) • 双节点主备方案 • Raft 选主方案 • 分布式元数据

6.双节点主备方案:HDFS QJM HA Zookeeper Cluster ZKFailoverController ZKFailoverController Journal Node Journal Node Journal Node NameNode NameNode DataNode DataNode DataNode DataNode

7.Raft 选主方案 Header Header Service Service Header Service Worker Worker Worker /Client /Client /Client

8.分布式元数据方案

9.元数据的能力 • 一定程度依赖后端存储方式 类型 性能 内存 速度快,容量有限 本地磁盘 (RocksDB) 速度中等,10亿左右 分布式存储 (OTS、HBase) 速度中等,容量更大

10.大规模元数据服务的常见瓶颈 • Part II

11.大规模元数据服务的常见瓶颈 • “慢”的源头 • 元数据的存储能力 • 服务端 RPC 处理能力 • 内部 R/W Lock • 大量 Worker/Client 并发

12.大数据规模元数据的优化方法 • 服务端 • 优化单次耗时 • 增加并发能力 • 客户端 • 避免触发上层目录的耗时操作 • 对操作进行审计

13.JindoFS 元数据服务 • Part III

14.EMR JindoFS Namespace (EMR 3.26 +) Namespace Service 1 Namespace Service 2 Namespace 1 Namespace 2 Namespace 1 Namespace 2 Namespace 3 Namespace 3 RocksDB OTS

15.常见的元数据操作 • GetFileStatus HDFS • List(Directory) JindoFS • Count/Du 对象存储 • Rename

16.元数据操作 – GetFileStatus/List(Directory) • 最常用的调用,判断文件(夹)是否存在, 文件类型,文件属性等。 • 生成作业计划,数据分片;文件系统内部检查, 查看文件列表和属性 • HDFS • JindoFS • 对象存储

17.元数据操作 - Count/Du • 常用的命令,统计目录下文件夹和文 件的数量和大小。 • 统计数据库,数据表;核对文件数量 • HDFS 服务端计算 • JindoFS 服务端计算 • 对象存储 客户端计算

18.元数据操作 - Rename • 最常用的调用,移动文件/文件夹。 • 作业从临时目录移动到最终目录 • HDFS 速度中 • JindoFS 速度快 • 对象存储 速度慢

19.JindoFS 相关链接 • JindoFS 使用文档 • https://help.aliyun.com/document_detail/141542.html?spm=a2c4g.11186623.6.1083.12aa 43ecOj6aue • JindoFS 介绍 • https://help.aliyun.com/document_detail/141534.html?spm=a2c4g.111866 23.6.1085.70dc66393niZob • https://help.aliyun.com/document_detail/141535.html?spm=a2c4g.111866 23.6.1086.278d4932a0rWd0

20.Q&A