申请试用
HOT
登录
注册
 
红包
参会+推广

Fugue:轻量框架无缝衔接小数据与大数据开发

时间
2022/04/23 10:00 - 11:00
人数
300
地点
研讨会直播
1078人浏览
会议详情

讲师简介

图片1.png
汪涵,开源项目 Fugue 创始人,目前任职 Lyft 机器学习平台架构师,之前在多家大厂与高频交易公司任职。在以下国际会议:Spark Data AI Summit, PyData Global, KubeCon, Dask Summit, (Linux Foundation) Open Source Summit 演讲并探讨了大规模计算和机器学习的多个方面。他同时也在 O’Reilly Learning Platform 授课,并与彭河森合著《构建实时机器学习系统》。

议题简介

Fugue:轻量框架无缝衔接小数据与大数据开发
我们从来不缺乏优秀的数据处理工具。
从 Pandas, DuckDB 到 Spark, Dask, Ray 等等,它们都有成熟的构架和丰富的功能。然而他们主要功能类似,接口和计算结果又不尽相同。一个最典型的例子就是 Koalas, Dask 和 Modin 对于 Pandas 的模仿,它们不仅不能做到无缝衔接,而且还给使用者设下了更多陷阱(参见 PyCon 2022 Talk)。
Fugue 是一个轻量的抽象层,它保证了各个计算引擎结果的一致性;它不假装 Pandas 但充分利用 Pandas;它拓展了SQL使之可扩展并可以表达复杂的工作流;它让使用者回归最简单的代码去表达核心逻辑,完全独立于任何计算引擎包括Fugue本身;无论你用Python 或 SQL开发大数据项目,Fugue可以让你的代码100% unit testable。
 
在本次交流中,我将展示怎样使用一个Fugue函数就可以把现有代码分布执行在你的Spark或Dask集群上。我还将展示如何在本地快速迭代一个复杂的pipeline 完全测试并立即产品化为一个大数据项目。

活动
文档
专题
博客
确认
3秒后跳转登录页面
去登陆