申请试用
HOT
登录
注册
 
Sparser: Apache Spark中非结构化数据格式的快速解析

Sparser: Apache Spark中非结构化数据格式的快速解析

poppy
/
发布于
/
1953
人观看
在本文中,我们介绍了Spark,一个新的解析库,用于Sjk中的JSON、CSV和AVRO文件。通过在解析记录之前积极地过滤它们,Sparser在几个真实的Spark SQL工作负载上实现了高达9倍的端到端运行时改进。使用Spark的数据源API,Sparser提取由Spark SQL查询指定的过滤表达式;然后将这些表达式编译为快速、SIMD加速的“预过滤器”,它可以以比当前在S中可用的JSON和CSV解析器快一个数量级的速度丢弃数据园。
0 点赞
0 收藏
0下载
相关文档
确认
3秒后跳转登录页面
去登陆