申请试用
HOT
登录
注册
 

AI Infra Chat#01《DLRover:蚂蚁大模型训练弹性容错与自动优化》

时间
2023/09/14 19:00 - 20:00
人数
50
地点
研讨会直播
500人浏览
会议详情

直播嘉宾信息

  1. 嘉宾介绍:王勤龙 (花名:长凡)
    title:蚂蚁集团技术专家;AI 系统工程师

分享主题&大纲

a. 分享标题:《DLRover:蚂蚁大模型训练弹性容错与自动优化》

b. 议题简介:介绍 DLRover 云上弹性容错的分布式训练架构。本次分享将介绍 DLRover 的容错如何提高大规模分布式训练的稳定性和训练的自动优化。同时还会介绍 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛,提升训练性能和集群效能。

c. 听众收获:
i.了解 DLRover 项目及架构。
ii.了解分布式训练弹性、容错和自动扩缩容的原理。
iii.了解分布式训练自动调优的原理与实现。

活动
文档
专题
博客
确认
3秒后跳转登录页面
去登陆