确定删除吗?
7月3日【Koalas 介绍】
讲师:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。
内容介绍:Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。
阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区
1.Koalas介绍 2019-07-03 王道远(健身)
2.⽬目录 1 2 3 4 5 基本⽤用法 内部细节 相关项⽬目 总结 项⽬目背景
3. Part 1 项⽬目背景
4.项⽬目背景
5.项⽬目背景
6.项⽬目背景 - Koalas • pandas⽆无法处理理data scientist/AI要⽤用的⼤大规模数据 • Spark的DataFrame API和pandas的API有gap • Python⽣生态
7.⽬目录 1 2 3 4 5 项⽬目背景 内部细节 相关项⽬目 总结 基本⽤用法
8. Part 2 基本⽤用法
9.基本⽤用法 import databricks.koalas as ks import pandas as pd pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']}) # Create a Koalas DataFrame from pandas DataFrame df = ks.from_pandas(pdf) # Rename the columns df.columns = ['x', 'y', 'z1'] # Do some operations in place: df['x2'] = df.x * df.x
10.⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 相关项⽬目 总结 内部细节
11. Part 3 内部细节
12.内部细节 pandas Series pandas Koalas DataFrame DataFrame Spark DataFrame Metadata data_columns index_map Spark Koalas DataFrame Series Spark DataFrame
13.内部细节 __init__ Koalas DataFrame to_spark() Spark DataFrame Spark DataFrame init_from_spark() Metadata data_columns toPandas() session.createDataFrame() index_map to_pandas() init_from_pandas() pandas DataFrame
14.内部细节 - pandas.merge()
15.内部细节 - indexing • LocIndex -> sdf.where(…) • ILocIndex -> sdf.select(…) • AtIndex -> sdf.where(…).select(…)
16.⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 总结 相关项⽬目
17. Part 4 相关项⽬目
18.相关项⽬目 分布式Python数据分析 - 主打兼容dataframe api
19.⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 相关项⽬目 总结
20.Part 5 总结
21.总结 • 只能赋值整列列,只能使⽤用对⻬齐的列列赋值(withColumn)。 • 没有流数据⽀支持(streamz)。 • ⽀支持⾼高维数据(ndarray)。 • 已有Spark集群时,可以⾃自⾏行行安装使⽤用,⽆无需修改现有集群(通过spark-submit)。 • 现阶段,有条件的客户还是建议学习使⽤用PySpark。
22.