申请试用
HOT
登录
注册
 

知乎多云混合部署下的存储架构实践

在 2022年,知乎采用了 JuiceFS 社区版,在多个场景中表现出了卓越的性能,能够满足大量读写操作和用户实时交互的需求。而在处理大规模的 LLM 训练等场景时,为了能够减少千卡任务 Checkpoint 的加载时间,提高 GPU 使用效率,又引入了 JuiceFS 企业版。
时间
2024/03/16 14:00 - 15:30
人数
500
地点
研讨会直播
285人浏览
会议详情

新一期 Meetup 就在本周六,期待在线上见到各位小伙伴🥳。这次活动,我们邀请了知乎分享 JuiceFS 在其机器学习平台的应用。

知乎,中文互联网领域领先的问答社区和原创内容平台,2011 年 1 月正式上线,月活跃用户超过 1 亿。平台的搜索和推荐服务得益于先进的 AI 算法,数百名算法工程师基于数据平台和机器学习平台进行海量数据处理和算法训练任务。

在 2022年,知乎采用了 JuiceFS 社区版,在多个场景中表现出了卓越的性能,能够满足大量读写操作和用户实时交互的需求。而在处理大规模的 LLM 训练等场景时,为了能够减少千卡任务 Checkpoint 的加载时间,提高 GPU 使用效率,又引入了 JuiceFS 企业版。

知乎采用多云部署策略,部署一套 JuiceFS 供多个公有云使用。无论是哪个云主机上的作业或服务,都能透明地处理文件,无需关心文件的物理位置,实现了体验的一致性。

截至目前,知乎已经在 JuiceFS 社区版上存储了 3.5 PB 的数据,用于机器学习场景;企业版则应用于对性能要求更高的任务。


演讲提纲

  • 知乎机器学习平台存储架构
    • 机器学习场景中数据应用面临的挑战
    • 多云混合架构带来的数据存储挑战
  • JuiceFS 在知乎的应用
    • 如何提升机器学习场景中的写性能
    • 千卡大语言模型加速 Checkpoint 加载
    • PB 级别数据在多云间迁移实践
  • 未来发展

关于讲师

王新,知乎机器学习平台工程师,目前负责知乎机器学习平台相关工作。研究领域包括机器学习基础设施的构建,包括集群调度、异构系统设计、AI 引擎设计、模型推理成本控制等。

时间

2024 年3月16日(本周六)下午 14:00-14:45

地点

线上

议程

14:00-14:05 社区动态

14:05-14:35

JuiceFS 在知乎多云混合部署下的存储架构实践

王新,知乎机器学习平台工程师

14:35-14:45 现场问答 & 抽奖

活动
文档
专题
博客
确认
3秒后跳转登录页面
去登陆