Koalas直播分享

播放视频

视频文档

Koalas直播分享

Apache Spark中国技术交流社区

发布于

4983

人观看

#信息技术

7月3日【Koalas 介绍】

讲师：王道远，花名健身，阿里云EMR技术专家，Apache Spark活跃贡献者，主要关注大数据计算优化相关工作。

内容介绍：Koalas是Spark社区推出的新项目，旨在为Spark提供与pandas完全兼容的接口，在降低pandas用户的学习和迁移成本的同时，充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。

阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区，定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号：21784001
团队群号：HPRX8117
微信公众号：Apache Spark技术交流社区

展开查看详情

1 .Koalas介绍 2019-07-03 王道远（健身）

2 .⽬目录 1 2 3 4 5 基本⽤用法内部细节相关项⽬目总结项⽬目背景

3 . Part 1 项⽬目背景

4 .项⽬目背景

5 .项⽬目背景

6 .项⽬目背景 - Koalas • pandas⽆无法处理理data scientist/AI要⽤用的⼤大规模数据 • Spark的DataFrame API和pandas的API有gap • Python⽣生态

7 .⽬目录 1 2 3 4 5 项⽬目背景内部细节相关项⽬目总结基本⽤用法

8 . Part 2 基本⽤用法

9 .基本⽤用法 import databricks.koalas as ks import pandas as pd pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']}) # Create a Koalas DataFrame from pandas DataFrame df = ks.from_pandas(pdf) # Rename the columns df.columns = ['x', 'y', 'z1'] # Do some operations in place: df['x2'] = df.x * df.x

10 .⽬目录 1 2 3 4 5 项⽬目背景基本⽤用法相关项⽬目总结内部细节

11 . Part 3 内部细节

12 .内部细节 pandas Series pandas Koalas DataFrame DataFrame Spark DataFrame Metadata data_columns index_map Spark Koalas DataFrame Series Spark DataFrame

13 .内部细节 __init__ Koalas DataFrame to_spark() Spark DataFrame Spark DataFrame init_from_spark() Metadata data_columns toPandas() session.createDataFrame() index_map to_pandas() init_from_pandas() pandas DataFrame

14 .内部细节 - pandas.merge()

15 .内部细节 - indexing • LocIndex -> sdf.where(…) • ILocIndex -> sdf.select(…) • AtIndex -> sdf.where(…).select(…)

16 .⽬目录 1 2 3 4 5 项⽬目背景基本⽤用法内部细节总结相关项⽬目

17 . Part 4 相关项⽬目

18 .相关项⽬目分布式Python数据分析 - 主打兼容dataframe api

19 .⽬目录 1 2 3 4 5 项⽬目背景基本⽤用法内部细节相关项⽬目总结

20 .Part 5 总结

21 .总结 • 只能赋值整列列，只能使⽤用对⻬齐的列列赋值（withColumn）。 • 没有流数据⽀支持（streamz）。 • ⽀支持⾼高维数据（ndarray）。 • 已有Spark集群时，可以⾃自⾏行行安装使⽤用，⽆无需修改现有集群（通过spark-submit）。 • 现阶段，有条件的客户还是建议学习使⽤用PySpark。

22 .

6点赞

2收藏