- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
多模态数据支撑的AI配音技术(video dubbing) -张晴晴
张晴晴-晴数智慧创始人兼CEO
对话式AI先行者,曾任中国科学院声学研究所副研究员,从事大词汇连续语音识别的声学建模以及语言建模。巴黎法国国家实验室LIMSI-CNRS语音交互处理博士后,从事大词汇连续语音识别声学建模。荣获《亿欧》2022年霓-中国青年女性创始人TOP20,《财富》2021年中国最具影响力商界女性(未来榜)。同时还是CCF语音对话与听觉专委会委员、智能汽车分会执行委员、女计算机工作者委员会委员、标准工作委员会委员,开放群岛开源社区「首席数据科学家」。
分享介绍:
AI配音技术是近年来人工智能技术的一项重要应用领域。AI可以模拟出目标真人的声音,甚至能够表现出情感、语调和语气等特征。AI配音技术被广泛应用于广告、教育、游戏、电影等领域,为各种语音应用提供了更加完美的表现形式。进一步地,AI配音结合翻译技术,可以为音视频内容本地化提供极大的便利。本报告分享实现AI配音技术的所需要的多方面技术拆解,以及晴数智慧在AI配音技术数据解决方案上的探索。
展开查看详情
1 .多模态数据支撑的AI配音技术(Video Dubbing) 张晴晴 - 晴数智慧创始人兼CEO 1
2 .个人介绍 对话式AI先行者 中科院博士、副研究员 17年对话式AI研究经验 中国科学院杰出科技成就奖 法国国家实验室LIMSI-CNRS博士后 Microsoft Research Asia Fellowship Award 获科学技术厅科学技术进步奖一等奖 开放群岛开源社区「首席数据科学家」 张晴晴 CCF语音对话与听觉专委会委员 / CCF智能汽车分会执行委员 创始人兼CEO CCF女计算机工作者委员会委员 / CCF标准工作委员会委员 2
3 .火爆全网的AI“译制片” 3
4 .什么是AI配音技术 广告 教育 如何给外语片中文配音? EN EN AI配音技术的应用 视频内容校对 游戏 专业翻译 AI配音 中文配音 电影 自媒体播客、短视频制作 CN CN 4
5 .AI配音的支撑技术 语音驱动唇部动作 wav2lip 语音翻译 speech to text translation 语音克隆 voice cloning 5
6 .多模态数据融合与高质量数据挑战 关键点 高品质的数据 • 数据需求由量到质的转变 • 覆盖面广 • 数据处理流程复杂 • 多模态 • 数据质量 (数据采集, 数据标注 etc.) • 时效性 • 数据风格 • 高精度 • 合规性 多模态能力是AI变革的核心驱动力 6
7 .晴数智慧多模态数据解决方案 48kHz大 模型语音 克隆数据 集 Video Dubbling 端到端语 多模态数 音翻译数 据采集标 据 注 7
8 .语音克隆(voice cloning) 采集说话者语音 数据需求挑战 (通常5-10秒) 爬取数据用于预训练,而译制片的版权非常严格,面临版权 用户输入文本 合规的风险 数据预处理 爬取数据的背景非常杂乱,脏,导致训练的声音出现一些异 常不真实的幻觉 语音克隆模型训练 说话人丰富度不足,一个人说的时间可能过长 声音合成 输出克隆声音 8
9 .48kHz大模型语音克隆数据集 性别分布/人 年龄分布/人 语种 中文普通话 输出频 风格 对话式&朗读式 采样率 48kHz 比特率 16bit 地域分布/人 话题分布/小时 声道 单声道 音频数量 4,179,024个 说话人数 18,226+人 总时长 6,692+小时 9
10 .语音翻译(speech to text translation) 数据需求挑战 爬取数据(主要是译制片)用于预训练,而译制片的版权 非常严格 级联语音翻译 建模方式 (Cascade) 爬取的数据说话人非常单一,及其缺乏多样性 端到端语音翻译 (End-to-end) 译制片翻译的风格有可能也比较传统,需要一些与时俱进 译制片的情绪表达其实是演绎出来的,并不是一种真 实自然的状态 10
11 .端到端语音翻译数据 AUDIO LANGUAGE TRANSCRIPTION TRANSLATION 上海话-中文普通话 姑娘,吾敬依是条汉子! 妹子,我敬你是条汉子! 我手机坏咗,唔可以上网啦,第日啦 我手机坏了,不能上网了,来日 广式粤语-中文普通话 瞓啦 吧,睡了 lt is on a two-hectare farmin 它位于加利福尼亚南部的一个占 英语-中文 southern California 地两公顷的农场上 mi abuelo llegó a ganar un 我的祖父甚至在牌桌上赢了一杯 西班牙语-中文 café a las cartas. 咖啡 11
12 .语音驱动唇部动作(wav2lip) 基于静态图像来输出 与目标语音匹配的唇 形同步视频 Wav2lip 将动态的视频进行唇 形转换,输出与输入 语音匹配的视频 每个音素所对应特定视素 12
13 .语音和因素多模融合驱动方法-发音位置 双唇音 唇前音 舌尖前音 发音位置 舌尖中音 舌尖后音 文本内容:在当地拼搏 舌面前音 发音位置:舌前音+舌尖中音+双唇音 声谱信息: 舌面后音 13
14 .多模态数据采集 14
15 .多模态数据标注 音视频 语音 15
16 .晴数智慧高质量数据集解决方案 专家知识+AIGC大模型,为AI AIGC 独家合规 01 提供丰富的数据基建支撑力 数据生成 高质量 训练数据集 智能化架构,优化数据采集、 02 生成、标注、测试MLOps工 垂直领域 作流,提高数据质量和效率 MLOps 03 完整链条可追溯 数据合规 16
17 .高质量数据集 覆盖五大行业、近20个领域(100个子领域) 智慧出行 智慧金融 智能社交 智能终端 智能家居 120,000(h) 130,000(h) 90,000(h) 120,000(h) 120,000(h) 60亿token 65亿token 45亿token 60亿token 60亿token 17
18 .多任务、多领域AIGC数据 任务类型 [{"context": " 1、学习内容增加 以数学为例,初中阶段主要学习初等代数、平面几何及数 理统计三部分,而高中阶段则会补充学习集合论、三角函数、不等式、立体几何、统计与 概率等内容。因此,很多同学在高中学习的初始阶段,会由于学习任务繁重,心理上出现 多轮对话 挫败及失落等负面情绪。因此,大家在中考完后的暑假可以完成一定预习,降低开学后的 整体学习强度及难度。 2、理论性增强 大家在初中学习时,物理、化学、地理等科目往 往只要求大家对基本现象有个了解或者只做简单的定性分析,而高中学习需要大家熟知现 阅读理解 象背后的原理,并且可以独立完成难度更大的定量分析,以得到更加精准的结果。例如, 初中物理只讲增大和减少摩擦力的方法,而高中物理则要分析和计算摩擦力的大小。 3、 偏好综合考察 不仅在同一学科内会出现对不同章节重点知识的联合考察,甚至会出现跨 文案生成 学科考察,需要大家灵活应用不同科目知识点完成作答。例如2022年高考数学(北京卷) 的第7题,选取绿色冬奥会为特定情境创设数学问题,不仅考察了大家的思维及逻辑能力, 也引导学生们关注现实生活中的环保问题。", "target": "高中学习相较初中有三个主要变 化:学习内容增加,理论性增强,偏好综合考察。学生需要面对更多学科知识的学习和掌 问答场景 握,对基本现象要了解原理,同时需要在考试中应用不同科目知识点进行综合考察。"}] 通用 医疗 教育 金融 政务 ... 领域 18
19 .高品质方言多轮对话语音数据 中国31个省份近10万名说话人提 供,近6万小时 说 语 多 语 话 音 轮 音 人 识 对 复 识 别 话 刻 别 为多机器学习任务提供高性能支撑 19
20 .高品质外语多轮对话语音数据 总时长 总说话人 60+国家近7万名说话人 语种 (小时) (人数) 英语 20,000 30,000 多轮对话 韩语 9,500 5,000 日语 6,500 3,000 领域相关 印尼语 4,600 3,000 马来语 3,500 4,000 人工采集和矫正 土耳其语 3,500 2,000 菲律宾语 2,900 2,000 泰语 2,100 3,000 葡萄牙语 1,700 2,000 德语 1,600 2,000 阿拉伯语 1,500 2,000 俄罗斯语 1,400 2,000 意大利语 1,200 1,500 西班牙语 1,000 2,000 法语 1,000 2,000 越南语 1,000 1,000 乌尔都语 500 1,000 印地语 500 500 20
21 . 为近300家互联网及行业客户提供AI数据解决方案 互联网 智慧出行 高质量数据集 智慧金融 智能社交 智能家居 垂直领域 数据合规 MLOps 智能终端 海外 Magic Data Confidential 21
22 .22