- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
JindoFS 3.0 新特性介绍和实战
第五课:
JindoFS 3.0 新特性介绍和实战
讲师:郑锴,花名铁杰,阿里巴巴高级技术专家
介绍:JindoFS 是存储计算分离场景下的存储扩展和缓存加速解决方案,广泛部署和应用在阿里云多个计算产品上。JindoFS 最近发布新版本,释放多个重要特性,助力客户部署使用数据湖产品。本节课重点介绍这些新特性,结合数据湖架构上的典型问题和挑战,讨论 JindoFS 的最佳实践和应对之道。
展开查看详情
1 . !"#$%·Data Lake Formation JindoFS 3.0 !"#$% 郑锴 · 阿⾥巴巴 / ⾼级技术专家
2 . !"#$%·Data Lake Formation 01 回顾 02 CONTENT 缓存增强 ⽬录 >> 03 存储优化 04 扩展⽀持
3 .01 回顾 Apache Flink 中⽂学习⽹站! ververica.cn © Apache Flink Community China 严禁商业⽤途
4 . !"#$%·Data Lake Formation Hadoop OSS ⽀持和优化 元数据优化 Rename 优化 百万级⽂件数⽬录,⼤幅提升: 百万级⽂件数⽬录,rename 操作: list, delete,du,count ⼤幅提升,⽀持重试,回退清理 ⽆须 rename 的 Jindo Job Committer 读写 IO 优化 OSS 多版本⽀持 充分异步并发,发挥 OSS 吞吐 优化性能开销
5 . !"#$%·Data Lake Formation OSS 缓存加速 数据⼀致性 磁盘缓存 ⽔位清理 元数据⼀致性 写时缓存 缓存块 LRU 淘汰 缓存数据⼀致性 读时缓存,避免读放⼤ 磁盘负载均衡
6 . !"#$%·Data Lake Formation 基于 OSS 的存储系统 内存缓存 OSS 1 备份 元数据操作普遍 > HDFS 向上扩展 细粒度锁 缓存 1 备份 IO 读写跟 HDFS 相当 ⼤规模⽔平扩展 管理元数据 ⽂件数据分块存放 性能优化 ⾼扩展
7 .02 缓存增强 Apache Flink 中⽂学习⽹站! ververica.cn © Apache Flink Community China 严禁商业⽤途
8 . !"#$%·Data Lake Formation 缓存容错和增强 磁盘容错 节点容错 ⽀持坏盘处理 ⽀持缓存服务故障 ⽀持磁盘上线/下线 ⽀持节点上线/下线 读写 IO 容错 OSS 读 + 缓存读 > 2 容忍坏盘/坏节点, ⽀持同时从 OSS 和磁盘读 ⾃动读 OSS
9 . !"#$%·Data Lake Formation 指定⽬录缓存 !"#$%&'()jindo jfs -cache -p <path> *#$+,'()jindo jfs -uncache <path> -.'(/&%0/12)jindo jfs -status -detail/-sync <path> 缓存空间有限 AI 训练预加载 ⾃动识别热数据? 2/8原则: 提前从 OSS 加载, 很快⽀持! ⼤部分都是冷数据, 满⾜训练搞吞吐 允许⽤户定制规则, 不可能缓存全部 ⾃动缓存热数据
10 . !"#$%·Data Lake Formation 指定表/分区缓存 !"3/45%&'()jindo table -cache -t <table> [-p <partitionSpec>] *3/45+,'()jindo table -uncache -t <table> [-p <partitionSpec>] -.'(/&%0/12)jindo table -status -t <table> 缓存最近的分区 很快⽀持! 缓存⼤宽表 基于历史查询 缓存热表/分区 ⾃动识别和缓存?
11 .03 存储优化 Apache Flink 中⽂学习⽹站! ververica.cn © Apache Flink Community China 严禁商业⽤途
12 . !"#$%·Data Lake Formation 归档 海量数据 数据湖理念:收集和管理各种原始 数据,通过 BI 和 AI 挖掘数据价值 2/8 原则 绝⼤部分都是冷数据,如何低成本 存储? 低频/归档 阿⾥云 OSS 原⽣⽀持低频/归档, 存储单价要便宜 解归档 冷数据可能会偶尔读⼀次的,归档 了怎么办?
13 . !"#$%·Data Lake Formation 指定⽬录归档 !"#$%&67)jindo jfs -archive -p <path> *#$+,67)jindo jfs -unarchive <path> -.67/&%0/12)jindo jfs -status -detail/-sync <path> ⾃动识别冷数据? 很快⽀持! 允许⽤户定制规则,基于历史访问⾃动识别冷数据,按照规则归档
14 . !"#$%·Data Lake Formation 指定表/分区归档 !"3/45%&67)jindo table -archive -t <table> [-p <partitionSpec>] *3/45+,67)jindo table -unarchive -t <table> [-p <partitionSpec>] -.67/&%0/12)jindo table -status -t <table> ⽤户只知道表,不知道 很快⽀持! ⽂件⽬录在哪⾥ 基于历史查询和表访问记录 归档冷表/分区 ⾃动识别和归档?
15 .04 扩展⽀持 Apache Flink 中⽂学习⽹站! ververica.cn © Apache Flink Community China 严禁商业⽤途
16 . !"#$%·Data Lake Formation Ranger 权限集成 • !"#$ HDFS %&' JindoFS/OSS()*+,-. Ranger /0123(456789:: • JindoFS ; OSS <!45=>? Ranger 0123@AB • CDEF- Ranger 01GH(IJKL OSS MN
17 . !"#$%·Data Lake Formation ⽂件操作审计 查看最近访问操作 记录各种⽂件访问操作 记录信息遵循 HDFS 审计格式 查看某种操作频次 访问⽇志存储到 OSS, 可以设置定期清理
18 . !"#$%·Data Lake Formation Fsimage 分析 jindo jfs -dumpMetadata <nsName> 全⾯记录⽂件元信息, 查看⽂件元数据内容 包括访问时间,热度统计 记录信息遵循 HDFS fsimage offline 分析格式 命令触发,结果输出到 OSS, 查询⽬录个数 然后直接分析查询
19 . !"#$%·Data Lake Formation 更加全⾯的⽣态组件⽀持 ⼤数据分析场景 交互式场景 Hadoop,Hive,Spark, Presto Impala,Druid 实时计算场景 AI 训练场景 Flink TensorFlow
20 . !"#$%·Data Lake Formation &'!"#$%()*+,,- ./!"#0123456