申请试用
HOT
登录
注册
 
Large-Scale, Near Real-Time Pipelines at Uber

Large-Scale, Near Real-Time Pipelines at Uber

Spark开源社区
/
发布于
/
3804
人观看
优步真正需要为数据消费者和产品提供更快,更新鲜的数据,每天运行数十万个分析查询。 优步工程师将分享第二代'Hudi'的设计,架构和用例,这是一个独立的Apache Spark库,用于构建旨在满足此类需求及其他需求的大规模分析数据集。 Hudi(以前称为Hoodie)的创建是为了有效管理分布式存储上的数PB分析数据,同时支持快速摄取和查询。 在本次演讲中,我们将讨论如何利用Spark作为通用分布式执行引擎来构建Hudi,详细说明权衡和操作体验。 我们还将展示使用Spark Datasource / Streaming API将数据摄取到Hudi中,并使用Spark SQL在顶部构建笔记本/仪表板。
6点赞
3收藏
6下载
确认
3秒后跳转登录页面
去登陆