Koalas直播分享

7月3日【Koalas 介绍】

讲师:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

内容介绍:Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。


阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区

展开查看详情

1.Koalas介绍 2019-07-03 王道远(健身)

2.⽬目录 1 2 3 4 5 基本⽤用法 内部细节 相关项⽬目 总结 项⽬目背景

3. Part 1 项⽬目背景

4.项⽬目背景

5.项⽬目背景

6.项⽬目背景 - Koalas • pandas⽆无法处理理data scientist/AI要⽤用的⼤大规模数据 • Spark的DataFrame API和pandas的API有gap • Python⽣生态

7.⽬目录 1 2 3 4 5 项⽬目背景 内部细节 相关项⽬目 总结 基本⽤用法

8. Part 2 基本⽤用法

9.基本⽤用法 import databricks.koalas as ks import pandas as pd pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']}) # Create a Koalas DataFrame from pandas DataFrame df = ks.from_pandas(pdf) # Rename the columns df.columns = ['x', 'y', 'z1'] # Do some operations in place: df['x2'] = df.x * df.x

10.⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 相关项⽬目 总结 内部细节

11. Part 3 内部细节

12.内部细节 pandas Series pandas Koalas DataFrame DataFrame Spark DataFrame Metadata data_columns index_map Spark Koalas DataFrame Series Spark DataFrame

13.内部细节 __init__ Koalas DataFrame to_spark() Spark DataFrame Spark DataFrame init_from_spark() Metadata data_columns toPandas() session.createDataFrame() index_map to_pandas() init_from_pandas() pandas DataFrame

14.内部细节 - pandas.merge()

15.内部细节 - indexing • LocIndex -> sdf.where(…) • ILocIndex -> sdf.select(…) • AtIndex -> sdf.where(…).select(…)

16.⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 总结 相关项⽬目

17. Part 4 相关项⽬目

18.相关项⽬目 分布式Python数据分析 - 主打兼容dataframe api

19.⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 相关项⽬目 总结

20.Part 5 总结

21.总结 • 只能赋值整列列,只能使⽤用对⻬齐的列列赋值(withColumn)。 • 没有流数据⽀支持(streamz)。 • ⽀支持⾼高维数据(ndarray)。 • 已有Spark集群时,可以⾃自⾏行行安装使⽤用,⽆无需修改现有集群(通过spark-submit)。 • 现阶段,有条件的客户还是建议学习使⽤用PySpark。

22.