4.使用Ray作为Spark SQL UDF的执行引擎-祝威廉

播放视频

视频文档

4.使用Ray作为Spark SQL UDF的执行引擎-祝威廉

下载 12

白玉兰开源

发布于

1314

人观看

#信息技术

使用Ray作为Spark SQL UDF的执行引擎-祝威廉

这次分享我们会重点介绍如何基于Ray使用Python实现Spark SQL UDF函数，进一步的，我们使用该技术实现有状态的UDF函数，从而能够将常见的Python算法模型转换成 SQL UDF函数进而被更广泛的使用。利用Ray强大的分布式编程能力，我们完美解决算法模型包装成SQL函数面临的两大难题，1. 函数需要一个初始化过程，2. 函数有一定的python环境要求。

祝威廉 现就职于Kyligence，资深数据架构师，拥有10+年研发经验。最近六年专注于数据管理，商业分析，机器学习的统一平台的设计和开发。个人热衷于开源产品的设计和研发，MLSQL(mlsql.tech)为其主要开源作品。

展开查看详情

1 .使用Ray 作为Spark SQL UDF的执行引擎祝威廉 Kyligence

2 . u MLSQL 是怎么支持Python的 Agenda u 为什么要整合Ray u 整合Ray的两种模式 u 如何使用Ray作为UDF执行引擎

3 .MLSQL 是如何支持Python的 1. MLSQL 语法扩展插件，能够执行Python代码 2. Python在MLSQL中作为文本片段存在 3. Python是沙箱，输入输出都必须是表，我们提供了API供交互 © Kyligence Inc. 2021, Confidential.

4 .MLSQL对应到后端代码层面-PyJava原理 Python Daemo Python n Worker Java Executor Python Daemo Python n Worker 1. Python Deamon主要由Python版本+ 环境变量决定 2. Python Worker 由Python Daemon管理 3. 双方主要通过输入输出流进行数据交换 4. 数据传输格式为Arrow © Kyligence Inc. 2021, Confidential.

5 .现有模式的局限 Node 1 Python 1. Python / Java 混合部署，互相干扰，难以隔 Daemo Python n Worker Java 离，运维困难（Python环境需要多份） Executor 2. 无法实现GPU等多种资源的调度 Python Daemo Python 3. 不同Python Worker无法实现交互互通 n Worker 4. 基于这套架构使用Python实现一个简单的PS结构都难以做到，不具备分布式编程能力，仅能进行 Node 2 Python 分布式数据处理。 Daemo Python n Worker Java Executor Python Daemo Python n Worker © Kyligence Inc. 2021, Confidential.

6 .怎么办？引入Ray！ © Kyligence Inc. 2021, Confidential.

7 .新模式 Ray Client 角色转换，只负责提交代码，真实任务在Ray集群执行一个Python Deamon对应无需安装如Tensorflow,Pytorch等机器学习库一套不同Python环境 Node N Python Daemo Python n Worker 1. Ray 支持真正的Python分布式编程，能 Java Executor 力强大 2. 多Ray集群，用户可以选择连接不同 Python Daemo Python Python环境 n Ray Cluster Worker 3. 充分利用Ray的硬件识别和调度能力，如基于GPU ,CPU,内存进行调度。 © Kyligence Inc. 2021, Confidential.

8 .存在两种交互模式 mode=model Ray client 返回数据（机器学习场景） mode=Data Ray client 返回数据地址（ETL场景） © Kyligence Inc. 2021, Confidential.

9 .mode=model Arrow Format Spark Cluster Partition Servers Address Read Once RDD Partition server python 0 Read Once step1 RDD Partition server worker Ray Read Once client 1 RDD Partition server Submit Job 2 step2 Ray Cluster step3 New RDD Partition 0 © Kyligence Inc. 2021, Confidential.

10 .mode=model 对应MLSQL代码 Ray client端会返回数据, 比如模型二进制目录或者路径 © Kyligence Inc. 2021, Confidential.

11 .mode=data Arrow Format Spark Cluster Partition Servers Address Read Once RDD Partition server Read Once python 0 RDD Partition server worker Ray Read Once client 1 RDD Partition server Submit Job 2 Actor Servers Address Ray Cluster New RDD Partition 0 Read Once Actor 0 server New RDD Partition 1 Read Once Actor 1 server New RDD Partition 2 Read Once Actor 2 server © Kyligence Inc. 2021, Confidential.

12 .mode=data 对应MLSQL代码 Ray client端会返回数据地址而非数据 © Kyligence Inc. 2021, Confidential.

13 .如何使用Ray作为UDF执行引擎 © Kyligence Inc. 2021, Confidential.

14 .如何使用Ray作为UDF执行引擎 © Kyligence Inc. 2021, Confidential.

15 .Python UDF 的几个点在Java中执行Python代码传统做法：先序列化python函数，然后丢到python worker中执行无状态UDF函数 MLSQL(PyJava)做法：Python代码直接丢到 python worker 中加载模型有状态UDF函数怎么实现? 使用模型进行预测 © Kyligence Inc. 2021, Confidential.

16 .有状态UDF函数实现初步设想 HTTP UDF UDF Worker Worker UDF UDF Worker Worker 本质是启动一个ML Serving集群,提供 PRC, HTTP支持 UDF UDF Worker Worker RPC © Kyligence Inc. 2021, Confidential.

19 .实现基本原理 • 创建一个detached actor(UDFMaster)，名称为udf名 • UDFMaster根据配置（初始化，预测逻辑），启动N个UDFWorker(也是actor) 注册 • 创建Spark UDF函数，该函数会通过pyjava 执行python 代码仅用96行Ray代码 • 被pyjava执行的python函数会通过udf名获取UDFMaster • 通过UDFMaster 获取可用的UDFWorker 预测 • 调用UDFWorker的apply方法执行实际预测逻辑 Incredible 3连 • 用户可以在Ray dashboard可视化管理 UDF集群 • 用户可以通过MLSQL插件管理UDF 集群管理 © Kyligence Inc. 2021, Confidential.

21 .UDF 注册逻辑图 Spark Cluster PyJava（Driver） Ray Cluster UDF UDF Cluster Worker 创建一个 UDF Master-Slave Cluser UDF Worker UDF Master UDF Worker © Kyligence Inc. 2021, Confidential.

22 .UDF执行 - 引擎侧逻辑 Scala UDF (PyJava) Ray Cluster Python Deamo Python n Worker Java Executor Python Deamo Python n Worker © Kyligence Inc. 2021, Confidential.

23 .UDF 执行- 全局逻辑 Spark Cluster Scala UDF Step2 UDF Worker DF Partition 0 (PyJava) 执行实际逻辑 Scala UDF DF Partition 1 (PyJava) Scala UDF DF Partition 2 (PyJava) Step1: 获取可用worker Ray Cluster UDF Worker Python Deamo Python UDF n Worker Java Worker Executor UDF Master Python UDF Deamo Python Worker n Worker © Kyligence Inc. 2021, Confidential.

24 .价值 Python/内置算法-三板斧完美闭环模型训练 Train 模型变函数，批流，HTTP/RPC皆可用 Register Predict 批量预测，吞吐优先 © Kyligence Inc. 2021, Confidential.

26 .Contact Us Kyligence Inc Apache Kylin u http://kyligence.io u http://kylin.apache.org u info@kyligence.io u dev@kylin.apache.org u Twitter: @Kyligence u Twitter: @ApacheKylin © Kyligence Inc. 2021, Confidential.

1点赞

1收藏

12下载