- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
6.祝海林-面向大数据+AI的语言-MLSQL
祝海林,现就职于Kyligence,技术合伙人&资深数据架构师,拥有13+年研发经验。最近六年专注于数据管理,商业分析,机器学习的统一平台的设计和开发,是MLSQL(mlsql.tech)项目创始人。个人热衷于开源大数据产品的设计和研发。
议题介绍
我们会围绕开源MLSQL,讲述如何在语言和引擎层面一站式的帮助用户落地大数据+AI,以极低的门槛,极高的效率提升用户对数据和AI的掌控能力。在大数据方面,MLSQL在语言层面,引擎层面,实现了流批一提,SQL化,内置数据湖,支持CDC实时同步replay。在AI方面,MLSQL覆盖了机器学习从数据获取,到训练,到端到端部署等完整流程,并且无缝衔接大数据生态。
展开查看详情
1 .面向 Data+ AI 的语言- MLSQL 祝威廉 Kyligence 技术合伙人 & 资深数据架构师
2 . 目录 1. 当前落地 Data + AI 所面临的痛点 2. MLSQL是什么 3. 如何使用MLSQL低成本落地 Data + AI © Kyligence Inc. 2020,
3 .“ 当前落地 Data + AI 所面临的痛点
4 .中小企业开发一个算法的典型流程 我不是超人 6. 不同组件任务使用调度连接起来 3. 使用机器学习库进行训练 4. 复杂的模型部署 5. 持续的迭代 1.使用SQL做一些数据预处理 2.PySpark进一步处理数据 © Kyligence Inc. 2020,
5 .痛点 1. 维护成本高,需要维护很多组件 2. 使用成本高,需要学习和使用各个工具才能完成一件事 3. 整套流程还需要额外的调度系统来衔接 4. 每个工具都不是那么“好用” 落地一个算 法时间以周 计算 © Kyligence Inc. 2020,
6 . Data+AI 落地成本太高的根本原因 1. 企业发现落地一个算法到具体的某个场景的成本远高于其带来的收益 2. 企业计算愿意花钱,也难以在短时间构建上述支撑体系,以及招聘到足够满足要求 的数据研发,数据科学家 © Kyligence Inc. 2020,
7 .“ 我们需要MLSQL, 那么MLSQL是什么
8 .MLSQL是什么 面向大数据和AI设计的语言 成熟的底层引擎 语言 分布式引擎 一个真正整合数据管理、商业分析、机器学习的 统一语言及统一平台 数据湖支持,CDC支持,各类算 法,Python支持等大数据开箱即用 内置库 功能 © Kyligence Inc. 2020,
9 .可覆盖人群 应用API(譬如业务后台分 数据科学家 大数据工程师 产品运营 析相关功能) Apps(Notebook, Works, Scripts等) MLSQL Engines © Kyligence Inc. 2020,
10 .MLSQL 四大优势 开源 统一 简单 安全 © Kyligence Inc. 2020,
11 .MLSQL是开源的 1. 用的安心 2. 有社区支持 3. 也有商业支 持 © Kyligence Inc. 2020,
12 .完整的开源-开箱即用的Console 1. Web IDE 2. 多租户 3. 支持Script/Notebook模 式 打开Web 完成一天的工作 1. 分析工坊 2. 无代码数据分析支持 © Kyligence Inc. 2020,
13 .统一 统一的语言 统一的引擎 © Kyligence Inc. 2020,
14 .划重点(MLSQL完美解决了) u 1. 使用内置算法无需任何Python知识即可完成机器学习全套流程 u 2. 使用Python做机器学习获取数据的问题,无需学习PySpark,而且可以充分控制数据权限。 u 3. 模型保存的问题,用户可以透明的将模型(通常是目录)保存到到数据湖中,以及从数据湖中进行加载,而 且支持版本化。 u 4. 模型可以直接部署到流,批,HTTP API。我们未来希望能慢慢覆盖终端中。 u 5. 可扩展性问题,企业既可以定制满足各种神奇需求的的插件也可以使用第三方已有的插件 u 6. 减少对调度系统的依赖 © Kyligence Inc. 2020,
15 .统一的价值 u 1. 极低的部署,维护成本 (可以分分钟搭建起平台) u 2. 极低的使用成本(对人的要求变低了,相同时间产出变多了) © Kyligence Inc. 2020,
16 .简单 1. MLSQL入门 简单,学习时间以【天】记即可开始上手工作 2. MLSQL可以满足不同层次人群诉求 (从运营产品到数据科学家,数据工程师,都可以使用功能MLSQL完成自 己的工作) 3. MLSQL易于程序代码生成 © Kyligence Inc. 2020,
17 .简单的价值 1. 不担心招人了 2. 效率提高了 3. 提高了AI的落地效率,降低了成本 © Kyligence Inc. 2020,
18 .安全 数据安全 语言安全 针对每个用户控制可使用语言功能 1. 对底层数据源无侵入性 1. 是不是能使用某个模块、插件 2. 支持表,列,行级别权限控制 2. 是不是能使用自定义UDF(Scala/Java) 3. 表级别权限可秒级校验,避免运行等待 3. 是不是能使用Python 4. Python 为沙箱,只能访问用户有权限的数 据 5. 还有更多。。。。 © Kyligence Inc. 2020,
19 .隐私计算 1. 数据不搬家 2. 强大的权限控制 3. 强大的计算能力 MLSQL Engine 其他 公网 公司 数据 (完善 的权限 控制) © Kyligence Inc. 2020,
20 .典型场景 某消费金融公司: 厦门某信息公司: 基于MLSQL 实现可视化ETL,替换原来的 公司200多人,70人有账号,日活跃50多人 Kettle方案,开发效率15倍提升 MLSQL具备帮助企业以: 两个开发,支持MLSQL引擎累计已运行批任 务,交互查询 200多万个 1. 极低的维护成本 2. 极低的使用成本 完成 Data+ AI 的真正落地的能力 © Kyligence Inc. 2020,
21 .“ 一个最简单的但直观的demo示例 更多视频: https://space.bilibili.com/22610047?from=search&s eid=16252681165527176816
22 .© Kyligence Inc. 2020,
23 .MLSQL 内部原理 语言实现 引擎物理视图 Ray 支持 权限控制原理 © Kyligence Inc. 2020,
24 .MLSQL 语言实现 © Kyligence Inc. 2020,
25 .MLSQL Engine 物理视图 MLSQL Engine Exeuctor Detail Apps u 单Engine支持多租户 JDBC/Rest API Driver Java Executor u 精细权限控制 Proxy Server Python Deamon u Ray集群可选 (Load Balance) Executor Executor u Spark DS 比如 Executor Python Worker Python Worker ES,MongoDB,HBase等 等 u Proxy 还可以做读写 Submit(Optional) MLSQL Engine 分离 Ray Cluster Ray Cluster Ray Cluster Yarn/K8s/Standalone/Local Yarn/K8s/Standalone/Local © Kyligence Inc. 2020,
26 .MLSQL Engine 实现Spark和Ray的互通概览 base on PyJava Lib © Kyligence Inc. 2021, Confidential.
27 .MLSQL Engine 实现Spark和Ray的互通细节图 Arrow Format Spark Cluster Partition Servers Address Read Once RDD Partition server Read Once python 0 RDD Partition server worker Ray Read Once client 1 RDD Partition server Submit Job 2 Actor Servers Address Ray Cluster New RDD Partition 0 Read Once Actor 0 server New RDD Partition 1 Read Once Actor 1 server New RDD Partition 2 Read Once Actor 2 server © Kyligence Inc. 2021, Confidential.
28 .解析时权限控制原理示意图 load hive.`public.table1` as table1; 语法解析 动作:load hive:public.table1 校验 table1 auth server 当前用户名称 © Kyligence Inc. 2020,
29 .运行时权限控制原理示意图 load hive.`public.table1` as table1; 运行解析 动作:load hive:public.table1 当前用户名称 返回可用字段 auth server temp:table1:{schema} © Kyligence Inc. 2020,