申请试用
HOT
登录
注册
 
1.刘嘉承-Alluxio – 云原生数据编排平台
4 点赞
6 收藏
37下载
示说网官方
/
发布于
/
376
人观看

刘嘉承,2017年哥伦比亚大学计算机科学硕士毕业。
2019年加入Alluxio开发团队,负责Alluxio和云场景相关及部分核心组件的开发工作。

image.png

展开查看详情

1.Alluxio – 云原生数据编排平台 Data Orchestration for Analytics and AI in the Cloud 2021/06/26 - 刘嘉承

2. 个人简介 刘嘉承,Alluxio开发工程师。香港城市大学CS本科, 哥伦比亚大学CS硕士。2019年加入Alluxio开发团队。 作为Alluxio核心维护成员,发布并维护Alluxio K8s Helm Chart,参与多个Alluxio组件的开发和优化。 jiacheng@alluxio.com ALLUXIO 2

3. 内容概览 ● 大数据/AI世界现状:纷繁复杂的数据平台带来的新挑战 ● Alluxio开源项目和公司历史 ● Alluxio的核心技术革新 ○ 统一数据编排层 ○ 数据加速 & 数据管理 ○ 异构环境支持 ALLUXIO 3

4.现状: 纷繁复杂的数据平台

5. 分割的数据世界 数据系统日益丰富 业务团队对数据统 存储与计算分离的 数据获取的碎片化 一访问的强烈要求 架构创新 ALLUXIO 5

6. 复杂的数据平台 数据复制 & 数据分析的多样性 & 技术变迁导致的多平台 显性数据同步的复杂性 数据平台适配的复杂性 混合架构&迁移的复杂性 ALLUXIO 6

7. 大数据/AI之路的架构演进 混合异构 (Hybrid) 混合云化部署 将需要弹性伸缩的负载和 同置 解耦 数据迁移进公有云或者是 (Co-located ) (Disaggregated) 私有云 支持更多计算框架 计算引擎 & HDFS 在同一个集群上实现计算 紧密耦合在一起 引擎与HDFS的解耦 对应用透明, 充分支持 Presto, Spark, Impala等等 向对象存储过渡 MR / Hive Spark/Presto HDFS HDFS 允许从传统大数据存储向 对象存储过渡 ALLUXIO 7

8. Alluxio 云原生的数据编排平台

9. Alluxio项目与公司历史 源自加州大学伯克利分校AMP实验室(原名Tachyon Nexus),李 浩源博士的博士论文课题,李浩源现任Alluxio公司董事长兼CEO 2014 Spark专用的堆外存储 --> 面向所有数据应用的分布式文件系统 Alluxio项目自开源以来已经在全球有1000+贡献者,并于2015年 成立公司推动Alluxio项目的产品与商业化,2020年在Google OpenSSF最有影响力的Java开源项目中排名第9 2015 Alluxio = ALL User eXperience IO = Alluxio LightSpeed(Lux拉丁文意为light) IO 面向异构基础设施环境(本地、混合云、公有云)实现高效的数据统一管理编排,服务 大数据与AI应用! 2018 2018 2019 2020 2021 ALLUXIO 9

10. 正在使用Alluxio的公司 TECHNOLOGY OTHERS FINANCIAL SERVICES INTERNET PUBLIC CLOUD PROVIDERS TELCO & MEDIA GENERAL E-COMMERCE LEARN MORE ALLUXIO 10

11. 云原生数据编排平台 统一的数据湖 高效的数据访问 & 统一的数据编排层 异构环境的支持 便捷的数据管理 抽象的数据层为数据分析和AI提 实现跨数据中心、跨云等异构体 定制化数据策略,提供完整的数 供统一的数据访问接口 据呈现、加速数据访问 系的敏捷数据集成和编排 ALLUXIO 11

12. Alluxio统一数据编排层 统一数据视图 HDFS #1 支持的底层系统 Object Store • HDFS • NFS NFS • Ceph • Amazon S3 HDFS #2 • Google Cloud • … ALLUXIO 12

13. Alluxio统一数据编排层 在Presto中使用Alluxio 在Alluxio中创建表格 > CREATE TABLE alluxio_table (id varchar) WITH (external_location = 'alluxio:///Data/Reports'); 从Alluxio中读取表格 > SELECT * FROM alluxio_table ALLUXIO 13 13

14. Alluxio统一数据编排层 在Spark中使用Alluxio: RDD 从Alluxio中读取文件 rdd = sc.textFile(“alluxio://master:19998/Data/Sales”); rdd = sc.objectFile(“alluxio://master:19998/Data/Sales”); 将文件写入Alluxio rdd.saveAsTextFile(“alluxio://master:19998/Sales”); rdd.saveAsObjectFile(“alluxio://master:19998/Sales”); ALLUXIO 14 14

15. Alluxio统一数据编排层 在Spark中使用Alluxio: DataFrame 从Alluxio中读取文件 df = sc.read.parquet(“alluxio://master:19998/Data/Reports”) 将文件写入Alluxio df.write.parquet(“alluxio://master:19998/Reports”) ALLUXIO 15 15

16. 云原生数据编排平台 统一的数据湖 高效的数据访问 & 统一的数据编排层 异构环境的支持 便捷的数据管理 抽象的数据层为数据分析和AI提 实现跨数据中心、跨云等异构体 定制化数据策略,提供完整的数 供统一的数据访问接口 据呈现、加速数据访问 系的敏捷数据集成和编排 ALLUXIO 16

17. Alluxio高效数据访问 数据本地性 Model Training Big Data ETL 对应用透明的读写 缓存 内存 SSD HDD Big Data Query 热数据 温数据 冷数据 Hot Warm Cold 基于自定义策略的数据管理 ALLUXIO 17

18. Alluxio高效数据访问 元数据本地性 Model Training Big Data ETL Alluxio Master Mutation 元数据同步 Big Data Query Old File at path New File at path /file1 -> /file1 -> ● 当底层数据发生变动时,Alluxio master与底层存储 同步,更新Alluxio中的元数据 ● 同步过程在下一次数据请求时延迟(lazy)发生 ALLUXIO 18

19. Alluxio高效数据访问 异步读写 Distributed Load Fast Durable Write Alluxio Data Orchestration and Control File A (3 replicas, 3 blocks until HDFS write completed) Service Alluxio Data Orchestration and Control Service File D Async Caching Async write (3 replicas, 3 blocks) / file (3 replicas, 3 blocks) / file File A File B File C File D ALLUXIO 19

20. Alluxio数据管理 策略化数据管理 hdfs://host:port/directory/ Alluxio将 HDFS数 据迁移进 S3 Reports Sales • 同一个Alluxio路径可以挂载多个底层存储,用户看到一个统一的视图 • 通过配置读/写策略指定读/写文件的先后顺序 • 通过配置迁移策略指定文件迁移方向 • Example: 将超过7天的数据从HDFS迁移入S3,节约HDFS资源 ALLUXIO 20

21. 云原生数据编排平台 统一的数据湖 高效的数据访问 & 统一的数据编排层 异构环境的支持 便捷的数据管理 抽象的数据层为数据分析和AI提 实现跨数据中心、跨云等异构体 定制化数据策略,提供完整的数 供统一的数据访问接口 据呈现、加速数据访问 系的敏捷数据集成和编排 ALLUXIO 21

22. Alluxio异构环境支持 数据向计算移动 计算集群1 v 云存储 存储集群1 存储集群2 ALLUXIO 22

23. Alluxio异构环境支持 优势 ● 存算分离,独立扩展,快速响应资源需求 计算集群1 ● 省去了数据管理的操作和延迟,存储中的数 v 据对计算集群即时可用,快速响应业务需求 ● 计算端对不同存储间的数据迁移无感知,降 低运维对业务的影响 ● 计算端的数据缓存节约集群间网络开销,减 轻存储集群压力 云存储 存储集群1 存储集群2 23 ALLUXIO 23

24. 欢迎加入Alluxio社区/团队 We are hiring! ● 研发工程师 ● 解决方案工程师 ● 销售工程师 ● 售后工程师 ● ... Alluxio钉钉群 投递简历: https://www.alluxio.io/careers xiao@alluxio.com ALLUXIO 24

4 点赞
6 收藏
37下载