申请试用
HOT
登录
注册
 

Remote Persistent Memory Extension for Spark shuffle

博客园
/
发布于
/
1184
人观看

讲师介绍

张建,英特尔亚太研发有限公司大数据部门的软件工程经理,专注于大数据和机器学习中存储方案优化

议题介绍

Spark中Shuffle密集型的作业的性能通常会受限于Shuffle过程中磁盘I/O和CPU开销。同时,很多工作证明简单的用更快的存储介质和网络来加速Shuffle 很难达到良好的效果。 我们将介绍如何利用持久化内存与高性能RDMA网络来加速Spark Shuffle。Spark Shuffle RPMem扩展提供了一个基于PMem和RDMA来加速Shuffle的方案,它采用PMem作为Shuffle的存储介质,利用PMDK用户态编程库进行数据读写,减小用户态、内核态切换与文件系统开销;用基于RDMA网络协议异构的传输层实现高性能数据传输;还将RDMA直接注册在PMem上,减少内存拷贝。 初步测试结果表明,相对传统Shuffle方案,Spark Shuffle RPMem扩展可以对Shuffle密集型作业带来显著的性能提升和时延下降。

3点赞
2收藏
9下载
相关推荐
确认
3秒后跳转登录页面
去登陆