- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Byzer-LLM:以数据库形态支持应用的大模型基础设施-祝海林
祝海林-Byzer社区PMC/Kyligence 技术合伙人
Byzer社区PMC/资深数据架构师/Kyligence技术合伙人,拥有15+年研发经验。一直专注在Data+AI融合方向上,致力于帮助企业更好的落地Data+AI。个人热衷于开源产品的设计和研发,Byzer/MLSQL为其主要开源作品。最新工作Byzer-LLM助力企业快速落私有化大模型,Byzer-retrieval旨在作为LLM RAG(检索增强生成)检索后端。Byzer获得22年中国开源创新大赛二等奖,23年浦东新区人工智能创新大赛一等奖,个人入选中国22年开源先锋33人,荣获23年全球人工智能开发者先锋大会「开发者先锋」称号。
分享介绍:
大模型是AI发展的一个里程碑,它正在改变社会的方方面面。Byzer作为Data+AI的语言和底座,已经有六年之久,使用SQL作为交互语言,以数据形态帮助企业快速的在诸如ETL,数据分析,流式计算(风控)以及APP应用等各种场景中使用大模型。同时内置的 Byzer-retrieval提供了对RAG场景的有力支持,同时支持关键字以及向量检索,并且具备混合结果重新打分排序。演讲提纲:1. 为什么我们开发Byzer数据库,2. 我们为什么称Byzer是AI数据库,3. 我们是如何实现这个AI数据库的,4. 我们如何使用SQL完成主流开源/SaaS模型的预训练,微调,部署,和调用以及包RGA中的混合召回的,5. 如何快速将Byzer数据库应用与企业业务中,比如基于大模型的问答知识库的快速构建,6. Byzer数据库社区现状和未来的发展
展开查看详情
1 .Byzer LLM: 以数据库形态支持应用的大模型基础设施 祝海林 – Byzer 社区PMC/资深数据工程师/Kyligence 技术合伙人 1
2 .分享内容 1. 为什么开发 Byzer-LLM 数据库 2. 为什么我们称 Byzer-LLM 是 AI 数据库 3. 我们是如何实现这个 AI 数据库 4. 使用 SQL完成预训练,微调,部署,和调用 5. 如何快速将 Byzer-LLM 应用与企业业务中 6. Byzer-LLM 社区现状和未来的发展 2
3 .为什么开发 Byzer-LLM 数据库 3
4 .以数据库为中心的传统 Web 开发模式 前端/APP/业务产品 后端/业务逻辑 存储/计算/数据 4
5 .现有 Data+AI(LLM) 开发模式 专有组件繁多,学习,开发,维护 成本极高,需要大量专家 复杂度太高,团队无法专注业务 DATA/AI 平台割裂,难以统一 5
6 .以 Byzer Data+AI 数据库为中心的开发模式 前端/APP/业务产品 后端/业务逻辑 存储/计算/数据/大模型 6
7 .Byzer 数据库的价值 依托于久经验证的 Data+AI 基础设施 • 复用 Web 开发模式开发 Data+AI 产品 • 仅需懂得 Prompt 和 SQL 的人才 企业可以保留原有的开发模式和流程保持不变 几乎所有开发者都懂得 SQL ,而 Prompt 的学习门槛也非常低 • 复用庞大的开发者生态,专注于业务 • 功能强大且广泛 Web 开发是当前最庞大的开发者生态,我们可以让他们开发 Byzer AI 数据库增强了 SQL ,满足 Data + AI/LLM 几乎方方面 Data + AI 应用 的需求 7
8 .Data + AI(LLM) 的应用开发不再高不可攀 有懂 Wbe 开发的同学就够了 8
9 .为什么我们称 Byzer-LLM 是 AI 数据库 9
10 . Byzer llama1/llama2 falcon baichuan stable diffusion whisper 覆盖几乎市面大部分数据源 覆盖主流 SaaS/开源 LLMs 10
11 .传统 Web 开发视角下的 Byzer 数据库 11
12 .大模型时代下,Data+AI(LLM) 的开发 会重回数据库时代 12
13 .我们是如何实现这个数据库的 13
14 .我们是如何实现 Byzer 数据库的 14
15 .数据库软硬一体 插电可用 15
16 .Case:使用 SQL 完成预训练、微调、部署和调用 16
17 . Byzer-LLM Date Pipeline Model Repo 大模型全生命周期管理 SelectA Base Model Prompt Engineer • 使用 SQL 管理大模型预训练,微调和部署 • 支持 SQL 调用大模型 Private Dateset • 提供了大模型的存储设施 Fine-tune • 在 Byzer NoteBook 中可以完成左侧全流程 Deploy Rest API Realtime ETL 17
18 .SQL 和大数据结合示意图 18
19 .微调数据处理 19
20 .Notebook 数据处理模式 • 专家模式:直接编写SQL • 可以利用大模型Copilot • 有强大的代码提示 20
21 .Workflow 模式数据处理 • 完全可视化交互 • 实时预览自动生成 SQL • 涵盖数据和算法处理算子 • 后续可增加copilot 算子 21
22 .数据处理的 AI Copilot 用户不会写 SQL 也没问题 • 随时获取表 Schema • 支持各种开源/Saas模型 • 可在 Notebook 中直接问询 • 支持多轮对话 • 生成的 SQL 可以直接运行 22
23 .大模型管理 23
24 . 启停大模型 和模型对话 SQL中使用大模型 HTTP API 调用示例 24
25 .如何部署一个模型 25
26 .如何使用模型 26
27 .如何 Finetune 一个模型 27
28 .并发,资源控制 Byzer 使用 HybridRuntime, 使用 Ray 来完成 GPU/CPU资源的管理和调度 *Data from W3Schools.com 28
29 .在 SQL 和大模型融合中的多项创新设计 Model as UDF SQL 支持多轮对话 Notebook Copilot • 首推模型即 SQL 函数概念 • 每张临时表就是一个对话, • 将注释和SQL之间实现互相 • 无需开发,一键注册主流私 对话使用临时表进行上下文 转换 有化和SaaS模型 衔接 • 从几KB的模型到几百G的大 • 使用实体表完成持久化 模型 优雅的扩展 SQL 语法 模型和数据统一按表管理 • 一行 SQL 完成大模型预训练 • 模型和数据,都以表形态管理 • 一行 SQL 完成大模型微调 • 模型和数据,都可以存储在内置数据湖中 • 一行 SQL 完成大模型 UDF 部署 29