- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
3. Ray在分布式训练容错和数据缓存上的实践-邱爽
分享
点赞
1
收藏
0
深度学习模型训练周期长,消耗计算资源多;分布式训练的稳定性和耗时性能是模型选代的关键指标,我们利用ray actor的状态持有特性,监控用户训练状态和计算节点GPU健康状态,自动伸缩训练任务至健康的计算节点,提高训练过程的容借性,为了解决分布式训练数据加载的性能瓶颈,我们利用ray object缓存训练所需的数据集,并且利用数据分布的局部性特征优化数据加载的务分发,在生产应用中获得了预期的性能收益。 邱爽,大疆创新-高性能计算富级工程师
展开查看详情
1点赞
0收藏
确认
3秒后跳转登录页面
去登陆