- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Alluxio 3.0:下一代AI数据平台-傅正佳
傅正佳-Alluxio研发负责人
分享介绍:
为保持竞争力并在竞争中脱颖而出,各家企业都在全力推进数据和AI基础设施的现代化。在此过程中,企业家们也意识到传统的数据基础设施已经无法匹配下一代数据密集型AI负载的需求。在AI项目推进中经常遭遇各类挑战,诸如性能低下、数据可访问性差、GPU稀缺、数据工程复杂以及资源未充分利用等,都严重妨碍了企业获取数据价值。分享将主要介绍最新Alluxio AI数据平台如何帮助企业加速AI工作负载并最大限度地获取数据价值。议题大纲:1、生成式AI时代AI基础设施的核心发展趋势,2、Alluxio 3.0架构及核心优势,3、云上使用分布式缓存的最佳实践
展开查看详情
1 .Alluxio 3.0:下一代AI数据平台 Alluxio Enterprise AI 傅正佳 – Alluxio研发负责人 1
2 . Alluxio 技术发展历程 源自2014年美国伯克利大学AMPLab的开源项目 数据爆炸 云采用 深度学习和AI 大数据和分析的兴起 单云到混合云、多云,跨区域 大模型训练和部署 支持千亿小文件 9/10 头部互联网公司 部署 Alluxio 7/10 头部互联网公司 部署 Alluxio 1000+节点 百度最大部署规模 10亿文件 由Alluxio2.0版本支持 知乎LLM 1000+ 模型训练,Alluxio提供支持 AliPay 开源贡献者 源自美国伯克利 80% 模型训练 100% Presto @ 大学AMPLab Meta 与Alluxio全面集成 1000+ 参会人 数据编排峰会 2014 2019 2023
3 .人工智能将在2029年左右达到人类智力水平。进一步展望,至2045年,智能技术和人类文明所创 造的生物机器智能的能力将被扩大10亿倍。 ——Ray Kurzweil 美国投资人和未来学家 AI/ML的竞争对企业至关重要 重塑企业数据基础架构更是大势所趋 我们正在见证全球性数据中心重组的需求井喷,这场长达十年的对现有数据中心的回收和利旧, 终将迈向加速计算的转型之旅。 ——黄仁勋 Nvidia CEO
4 . 企业搭建/优化AI高性能数据访问平台所面临的挑战 业务压力 GPU的烦恼 复杂且高昂的解决方案 少 GPU很稀缺 管理数据副本的复杂的 数据工程方案 更快的模型建 更快的迭代 设周期 速度 贵 GPU很昂贵 专用存储 更高的准确性和 快速增长 低 GPU的利用率 很低 失控的云和基础 可追溯性 的数据集 设施的费用
5 . Alluxio AI数据平台架构 AI/ML框架 高 统 性 一 能 的 Alluxio AI 数据平台 的 全 数 分布式缓存 全局数据访问 数据管理 局 据 企业安全与合规 性能和可扩展性 DevOps能力 视 访 图 问 云 本地 混合云 跨云 5
6 . Alluxio Enterprise AI 核心价值 比企业级存储更高的I/O性能 加速端到端机器学习任务流程 (大语言模型, 自然语言处理和计算机视觉) 采用新的分布式系统架构-Dora 模型训练和模型服务性能得到优化 (去中心化对象存储架构) 2-4x 节省数据工程 更新且更准确 更快模型上线时间 性能更高、可扩展的 复杂性和成本 的模型 AI/ML管道 6
7 .在机器学习工作流中部署Alluxio 扩展到100亿对象以上,满足AI需求 模 型 POSIX和S3 API增强 训 比商业化S3存储性能提升2-8倍 练 比提供了POSIX API的专用存储系统性能提升1.5-2倍 相较直接数据访问,API成本节约高达95% 支持超高并发的模型服务(从训练集群到推理集群) 模 型 部 根据使用模式实施数据预加载 署 生产中的部署时间降低至原先的1/2-1/3 7
8 . Alluxio VS 直接访问S3 Alluxio S3 17 min 85 min 总训练时间 总训练时间 Alluxio 比 (3 epochs) (3 epochs) S3 93% 17% 快5倍 GPU利用率 GPU 利用率 (TensorBoard) (TensorBoard)
9 .Alluxio +模型训练-提高GPU利用率 GPU利用率提升至高 达 90% On Prem 可在标准的低成本存储上 70 训练集群 70 … 运行 训练数据 Checkpoints 模型训练更快,模型更准 确且更新频率更高 数据湖 对象 数据源 存储 节约API成本 9
10 .Alluxio +模型训练-节省成本/优化复杂性 自动从现有数据湖加载数据 On Prem 70 训练集群 70 … 训练数据 Checkpoints 加快访问训练数据 数据湖 对象 数据源 存储 提高数据工程的效率 10
11 . Alluxio+模型训练-随时随地启用GPU 根据可用性和成本情况在任 何地方部署GPU REMOTE TRAINING CLUSTER On Prem On Prem 训练 训练 减少数据副本 … 集群 … 70 70 集群 70 70 训练数据 Checkpoints 训练数据 Checkpoints 数据湖 数据源 对象存储 对所有训练数据统一访问 降低网络和流量成本 11
12 . Alluxio+模型服务-模型部署速度更快 几分钟内将模型部署到远 区域接口集群 On Prem 端推理站点 训练 … 集群 70 70 On Prem 训练数据 Checkpoints 训练 … 集群 70 70 训练数据 降低所需网络带宽 Checkpoints 区域接口集群 On Prem 数据湖 对象存储 训练 … 数据源 或 HDFS 集群 On Premise 70 70 训练数据 Checkpoints 减轻底层对象存储或 HDFS的负载 12
13 . Alluxio使用前后效果对比 DataLoader中的耗时从82%降至 1%,GPU利用率从17%提高至93% • Resnet-50 使 使 • Resnet-50 • 3 epochs 用 用 • 3 epochs • S3 Fuse 前 后 • S3 Fuse GPU 摘要 类别 时长(us) 比例 (%) GPU 摘要 类别 时长(us) 比例(%) 名称 Tesla T4 平均步骤时间 1,763,649,145 100 名称 Tesla T4 平均步骤时间 334,274,946 100% 内存 15GB Kernel 299,168,905 17 Kernel 311,847,023 93 内存 15GB 计算能力 7.5 Memcpy 10,521,722 0.6 Memcpy 10,500,126 3 计算能力 7,5 Memset 39,459 0 Memset 43,946 0.01 GPU 利用率 17% GPU 利用率 93% 运行时间 3,043,169 0.17 运行时间 3,899,241 1.17 预估SM效率 17% 预估SM效率 93% DataLoader 1,446,068,956 82 DataLoader 3,343,301 1 预估实现占用率 69% 预估实现占用率 68% CPU 执行 1,570,076 0.09 CPU 执行 1,648,391 0.49 使用Tensor 使用Tensor Core的 0% 0.0% 其他 2,992,918 0.9 Core的内核时间 其他 3,245,858 0.18 内核时间 13
14 .14