申请试用
HOT
登录
注册
 

超大规模训练调度优化实践

openLooKeng
/
发布于
/
1056
人观看

字节跳动在超大规模模型训练场景下,遇到了资源、稳定性、性能等问题。为了解决这些问题,基于 YARN 自研了通用分布式机器学习训练调度框架。为了更好地支持该调度框架,对 YARN 进行了一系列修改和适配,包括支持了多种异构资源,开发了具有全局视角的新调度器,新增了多种单机技术等,大幅提升了训练体验。

0点赞
0收藏
8下载
确认
3秒后跳转登录页面
去登陆