申请试用
HOT
登录
注册
 
Koalas直播分享
Apache Spark中国技术交流社区
/
发布于
/
4636
人观看

7月3日【Koalas 介绍】

讲师:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

内容介绍:Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。


阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区

展开查看详情

1 .Koalas介绍 2019-07-03 王道远(健身)

2 .⽬目录 1 2 3 4 5 基本⽤用法 内部细节 相关项⽬目 总结 项⽬目背景

3 . Part 1 项⽬目背景

4 .项⽬目背景

5 .项⽬目背景

6 .项⽬目背景 - Koalas • pandas⽆无法处理理data scientist/AI要⽤用的⼤大规模数据 • Spark的DataFrame API和pandas的API有gap • Python⽣生态

7 .⽬目录 1 2 3 4 5 项⽬目背景 内部细节 相关项⽬目 总结 基本⽤用法

8 . Part 2 基本⽤用法

9 .基本⽤用法 import databricks.koalas as ks import pandas as pd pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']}) # Create a Koalas DataFrame from pandas DataFrame df = ks.from_pandas(pdf) # Rename the columns df.columns = ['x', 'y', 'z1'] # Do some operations in place: df['x2'] = df.x * df.x

10 .⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 相关项⽬目 总结 内部细节

11 . Part 3 内部细节

12 .内部细节 pandas Series pandas Koalas DataFrame DataFrame Spark DataFrame Metadata data_columns index_map Spark Koalas DataFrame Series Spark DataFrame

13 .内部细节 __init__ Koalas DataFrame to_spark() Spark DataFrame Spark DataFrame init_from_spark() Metadata data_columns toPandas() session.createDataFrame() index_map to_pandas() init_from_pandas() pandas DataFrame

14 .内部细节 - pandas.merge()

15 .内部细节 - indexing • LocIndex -> sdf.where(…) • ILocIndex -> sdf.select(…) • AtIndex -> sdf.where(…).select(…)

16 .⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 总结 相关项⽬目

17 . Part 4 相关项⽬目

18 .相关项⽬目 分布式Python数据分析 - 主打兼容dataframe api

19 .⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 相关项⽬目 总结

20 .Part 5 总结

21 .总结 • 只能赋值整列列,只能使⽤用对⻬齐的列列赋值(withColumn)。 • 没有流数据⽀支持(streamz)。 • ⽀支持⾼高维数据(ndarray)。 • 已有Spark集群时,可以⾃自⾏行行安装使⽤用,⽆无需修改现有集群(通过spark-submit)。 • 现阶段,有条件的客户还是建议学习使⽤用PySpark。

22 .

6 点赞
2 收藏
确认
3秒后跳转登录页面
去登陆