- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
大模型在网易云音乐的落地实践-谭钧心
谭钧心-网易云音乐资深算法平台开发工程师
17年加入网易云音乐,历经算法在线排序系统和模型训练框架研发,目前主要从事算法平台相关工作,致力于MLOps/LLMOps在云音乐落地实践,构建涵盖特征生产、模型训练、模型评估、模型部署的全流程一站式机器学习平台,助力云音乐算法业务快速迭代。
分享介绍:
ChatGPT的出现,是人工智能技术发展上的一次飞跃。无论是大模型本身还是大模型应用到业务,业界对于大模型的关注度越来越高。云音乐引入大模型到业务的工程化实践中,在链路流程、资源管理、使用效率等方面遇到了一些不同于推广搜业务的问题。为了解决这些问题,我们定义了一套涵盖大模型训练、评估、部署的标准规范,并融入到现有的机器学习平台中,帮助算法人员高效迭代大模型到线上业务。
展开查看详情
1 .大模型在网易云音乐的落地实践 谭钧心 - 网易云音乐 - 资深算法平台开发工程师 1
2 .目录 背景概览 01 云音乐机器学习平台建设的相关背景和演进历程 大模型实践案例 02 云音乐机器学习平台在大模型应用的工程实践 后续规划 03 更多元、更全面、更高效、更透明 2
3 .01 背景概览 3
4 .云音乐算法应用场景 推荐 AIGC 4
5 .机器学习平台演进历程 FeatureStore MLOps LLMOps 算法实时化系统 特征平台 机器学习平台 机器学习平台 为了达到更好的推荐效 基于我们的特征数据中心 基于K8S云原生架构,以 支持跨模态、LLM等预训 果,我们以推理实时化、 Datahub、高性能分布式 ML-Ops理论为基础打造 练大模型的微调、部署、 特征实时化、模型实时化 存储引擎Tair打造的特征 了云音乐机器学习平台, 评测等套件,以帮助算法 为目标建设了一批机器学 平台,以提高建模过程的 提升了算法团队建模的效 团队将其AI能力工程化落 习系统。 特征工程效率。 率、质量和可靠性。 地到AIGC业务。 5
6 .机器学习平台架构 业务:推广搜+AIGC 平台:MLOps+LLMOps 6
7 .02 大模型实践案例 7
8 .LLMOps概览 ◆Prompt:Prompt is all you have。 ◆微调:大模型业务场景适配。 ◆评测:LLM迭代的尺子。 ◆部署:大模型线上推理。 ◆评价&改进:让飞轮转起来。 8
9 .LLMOps—Prompt案例 任务明确 Task:一个青少年女孩坐在火车上,靠着窗户看着远方,戴着耳 机听着音乐。天空充满了黄昏的美丽色彩。她的眼里充满了梦 • 指令清晰无歧义。 想,脸庞被金色的阳光照亮。 • 信息完整。 • 复杂任务拆解为多个简单子任务。 9
10 .LLMOps—Prompt管理 核心关注点 • 历史的Prompt要能存储、跟踪和迭代 • 建立Prompt共享库,群策群力。 • 有能快速尝试Prompt效果的工具。 10
11 .LLMOps—Prompt与知识 库 LLM+知识库优势 • 增强业务事实性,不易出现模 型幻觉。 • 数据可以实时更新。 • 显性知识,可控性更高。 • 成本低,灵活性更高。 11
12 .LLMOps—评测 ◆LLM不是绝对准确,会犯很多错误,需要即使发现并纠正它们。 ◆测试为模型迭代提供评价标准。 ◆通用评测全而不专,不能反馈垂类业务的模型能力。 C-Eval包括1.3w+选择题,涵盖了52个不同的学科和四个难度级别 12
13 .LLMOps—人工评测 优势 • 评测准确性高。 • 有对垂类业务的理解。 劣势 • 成本高、时耗长。 • 不可持续。 • 新人需要培训。 13
14 .LLMOps—自动评测 优势 • 效率高、成本可控。 • 自动化、可持续。 劣势 • 有一定的错误率。 • 需要迭代评测Case。 14
15 .LLMOps—构建评测流程 • 人工沉淀badcase类别。 • 形成标准评测集。 • 使用其他LLM作为裁判。 • 自动统计评测结果。 • 根据评测结果反馈补充评测集。 15
16 . LLMOps—微调部署流程 与一般推荐模型训练推理相比: • 非结构化数据。 • 模型文件很大。 • 训练资源占用时间较长。 • 训练推理资源开销较大。 16
17 . LLMOps—部署 • LLAMA类模型 • 13B/半精度 • CI/CD标准流程 • MIG GPU虚拟化 • K8s资源池隔离 17
18 .LLMOps—微调 真实场景样本 来源于业务真实场景的语料 样本,最具效果但是数量比 样本 较少。 数量 在线反馈+人工精标 通过评测和标注系统,发现 goodcase和badcase,并 开源语料&爬虫 强化相关语料。 通过爬虫或者开源语料库补 充语料样本,数据量大多样 性强,但是需要筛选。 Chatgpt润色 使用Chatgpt在基础语料集 上润色和去噪声。 Chatgpt生成 通过Few-shot能力,使用 Chatgpt扩展语料集 样本 Prompt工程+规则过滤 (alpaca使用self-instruct 质量 通过简单的规则筛选过滤语 方式构建语料)。 料集,适配不同的prompt工 程来完成对应目标。 18
19 . LLMOps—微调 • LLAMA类模型 • 6B/13B • CI/CD标准流程 • K8s资源池隔离 • K8s队列配额 19
20 . LLMOps—评价&改进:让飞轮转起来 ◆通过效果评估发现问题。 ◆策略问题 - 优化Prompt或者调整策 略。 ◆模型问题 - 模型微调。 20
21 .03 后续规划 21
22 . 更高效 训练/推理优化,更强的计算性能。 更多元 算力资源优化,更低的成本。 跨音频、视频、文本、图像等 多个模态数据 更透明 健全MLSys数据、模型、服务监控。 更全面 建模全流程可见、可控、可管。 面向更复杂场景的AIGC 大模型套件改善。 22
23 .23