申请试用
HOT
登录
注册
 
Alluxio文件系统在搜狗的实践

Alluxio文件系统在搜狗的实践

Alluxio
/
发布于
/
6158
人观看
本次分享主要包括了Spark shuffle 基于Alluxio的优化,以及基于Alluxio对于临时表的性能改进:1.在搜狗大量的数据分析, 知识图谱的数据制作使用Spark/SparkSQL来进行并行计算,大部分由于Spark On Yarn存在各类问题导致业务SLA水平仅为96%,结合Alluxio内存文件系统,我们将Spark业务的稳定性水平SLA提升到99.22%,广泛应用于数据分析以及高优先级业务中;2.同时在搜狗存在部分任务使用Hive/Spark临时表作为中间计算,使用Alluxio性能提升22.2%。目前Alluxio部署1000+机器上,运行了半年时间。 肖邦,搜狗大数据平台高级开发工程师,主要负责致力于Spark/Hive计算引擎的开发与性能优化,结合Alluxio内存文件系统提升计算稳定性等工作
2 点赞
10 收藏
42下载
确认
3秒后跳转登录页面
去登陆