- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Koalas直播分享
7月3日【Koalas 介绍】
讲师:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。
内容介绍:Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。
阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区
展开查看详情
1 .Koalas介绍 2019-07-03 王道远(健身)
2 .⽬目录 1 2 3 4 5 基本⽤用法 内部细节 相关项⽬目 总结 项⽬目背景
3 . Part 1 项⽬目背景
4 .项⽬目背景
5 .项⽬目背景
6 .项⽬目背景 - Koalas • pandas⽆无法处理理data scientist/AI要⽤用的⼤大规模数据 • Spark的DataFrame API和pandas的API有gap • Python⽣生态
7 .⽬目录 1 2 3 4 5 项⽬目背景 内部细节 相关项⽬目 总结 基本⽤用法
8 . Part 2 基本⽤用法
9 .基本⽤用法 import databricks.koalas as ks import pandas as pd pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']}) # Create a Koalas DataFrame from pandas DataFrame df = ks.from_pandas(pdf) # Rename the columns df.columns = ['x', 'y', 'z1'] # Do some operations in place: df['x2'] = df.x * df.x
10 .⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 相关项⽬目 总结 内部细节
11 . Part 3 内部细节
12 .内部细节 pandas Series pandas Koalas DataFrame DataFrame Spark DataFrame Metadata data_columns index_map Spark Koalas DataFrame Series Spark DataFrame
13 .内部细节 __init__ Koalas DataFrame to_spark() Spark DataFrame Spark DataFrame init_from_spark() Metadata data_columns toPandas() session.createDataFrame() index_map to_pandas() init_from_pandas() pandas DataFrame
14 .内部细节 - pandas.merge()
15 .内部细节 - indexing • LocIndex -> sdf.where(…) • ILocIndex -> sdf.select(…) • AtIndex -> sdf.where(…).select(…)
16 .⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 总结 相关项⽬目
17 . Part 4 相关项⽬目
18 .相关项⽬目 分布式Python数据分析 - 主打兼容dataframe api
19 .⽬目录 1 2 3 4 5 项⽬目背景 基本⽤用法 内部细节 相关项⽬目 总结
20 .Part 5 总结
21 .总结 • 只能赋值整列列,只能使⽤用对⻬齐的列列赋值(withColumn)。 • 没有流数据⽀支持(streamz)。 • ⽀支持⾼高维数据(ndarray)。 • 已有Spark集群时,可以⾃自⾏行行安装使⽤用,⽆无需修改现有集群(通过spark-submit)。 • 现阶段,有条件的客户还是建议学习使⽤用PySpark。
22 .