多模态数据支撑的AI配音技术(video dubbing) -张晴晴

播放视频

视频文档

多模态数据支撑的AI配音技术(video dubbing) -张晴晴

下载 2

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
视频嵌入链接文档嵌入链接
<iframe src="https://www.slidestalk.com/slidestalk/621355?embed&video" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

示说网官方

发布于

1年前

440

人观看

#信息技术

张晴晴-晴数智慧创始人兼CEO

对话式AI先行者，曾任中国科学院声学研究所副研究员，从事大词汇连续语音识别的声学建模以及语言建模。巴黎法国国家实验室LIMSI-CNRS语音交互处理博士后，从事大词汇连续语音识别声学建模。荣获《亿欧》2022年霓-中国青年女性创始人TOP20，《财富》2021年中国最具影响力商界女性（未来榜）。同时还是CCF语音对话与听觉专委会委员、智能汽车分会执行委员、女计算机工作者委员会委员、标准工作委员会委员，开放群岛开源社区「首席数据科学家」。

分享介绍：

AI配音技术是近年来人工智能技术的一项重要应用领域。AI可以模拟出目标真人的声音，甚至能够表现出情感、语调和语气等特征。AI配音技术被广泛应用于广告、教育、游戏、电影等领域，为各种语音应用提供了更加完美的表现形式。进一步地，AI配音结合翻译技术，可以为音视频内容本地化提供极大的便利。本报告分享实现AI配音技术的所需要的多方面技术拆解，以及晴数智慧在AI配音技术数据解决方案上的探索。

展开查看详情

1 .多模态数据支撑的AI配音技术（Video Dubbing）张晴晴 - 晴数智慧创始人兼CEO 1

2 .个人介绍对话式AI先行者中科院博士、副研究员 17年对话式AI研究经验中国科学院杰出科技成就奖法国国家实验室LIMSI-CNRS博士后 Microsoft Research Asia Fellowship Award 获科学技术厅科学技术进步奖一等奖开放群岛开源社区「首席数据科学家」张晴晴 CCF语音对话与听觉专委会委员 / CCF智能汽车分会执行委员创始人兼CEO CCF女计算机工作者委员会委员 / CCF标准工作委员会委员 2

3 .火爆全网的AI“译制片” 3

4 .什么是AI配音技术广告教育如何给外语片中文配音？ EN EN AI配音技术的应用视频内容校对游戏专业翻译 AI配音中文配音电影自媒体播客、短视频制作 CN CN 4

5 .AI配音的支撑技术语音驱动唇部动作 wav2lip 语音翻译 speech to text translation 语音克隆 voice cloning 5

6 .多模态数据融合与高质量数据挑战关键点高品质的数据 • 数据需求由量到质的转变 • 覆盖面广 • 数据处理流程复杂 • 多模态 • 数据质量 (数据采集, 数据标注 etc.) • 时效性 • 数据风格 • 高精度 • 合规性多模态能力是AI变革的核心驱动力 6

7 .晴数智慧多模态数据解决方案 48kHz大模型语音克隆数据集 Video Dubbling 端到端语多模态数音翻译数据采集标据注 7

8 .语音克隆（voice cloning）采集说话者语音数据需求挑战（通常5-10秒）爬取数据用于预训练，而译制片的版权非常严格，面临版权用户输入文本合规的风险数据预处理爬取数据的背景非常杂乱，脏，导致训练的声音出现一些异常不真实的幻觉语音克隆模型训练说话人丰富度不足，一个人说的时间可能过长声音合成输出克隆声音 8

9 .48kHz大模型语音克隆数据集性别分布/人年龄分布/人语种中文普通话输出频风格对话式&朗读式采样率 48kHz 比特率 16bit 地域分布/人话题分布/小时声道单声道音频数量 4,179,024个说话人数 18,226+人总时长 6,692+小时 9

10 .语音翻译（speech to text translation）数据需求挑战爬取数据（主要是译制片）用于预训练，而译制片的版权非常严格级联语音翻译建模方式 (Cascade) 爬取的数据说话人非常单一，及其缺乏多样性端到端语音翻译 (End-to-end) 译制片翻译的风格有可能也比较传统，需要一些与时俱进译制片的情绪表达其实是演绎出来的，并不是一种真实自然的状态 10

11 .端到端语音翻译数据 AUDIO LANGUAGE TRANSCRIPTION TRANSLATION 上海话-中文普通话姑娘，吾敬依是条汉子! 妹子，我敬你是条汉子! 我手机坏咗，唔可以上网啦，第日啦我手机坏了，不能上网了，来日广式粤语-中文普通话瞓啦吧，睡了 lt is on a two-hectare farmin 它位于加利福尼亚南部的一个占英语-中文 southern California 地两公顷的农场上 mi abuelo llegó a ganar un 我的祖父甚至在牌桌上赢了一杯西班牙语-中文 café a las cartas. 咖啡 11

12 .语音驱动唇部动作（wav2lip）基于静态图像来输出与目标语音匹配的唇形同步视频 Wav2lip 将动态的视频进行唇形转换，输出与输入语音匹配的视频每个音素所对应特定视素 12

13 .语音和因素多模融合驱动方法-发音位置双唇音唇前音舌尖前音发音位置舌尖中音舌尖后音文本内容：在当地拼搏舌面前音发音位置：舌前音+舌尖中音+双唇音声谱信息：舌面后音 13

14 .多模态数据采集 14

15 .多模态数据标注音视频语音 15

16 .晴数智慧高质量数据集解决方案专家知识+AIGC大模型，为AI AIGC 独家合规 01 提供丰富的数据基建支撑力数据生成高质量训练数据集智能化架构，优化数据采集、 02 生成、标注、测试MLOps工垂直领域作流，提高数据质量和效率 MLOps 03 完整链条可追溯数据合规 16

17 .高质量数据集覆盖五大行业、近20个领域（100个子领域）智慧出行智慧金融智能社交智能终端智能家居 120,000(h) 130,000(h) 90,000(h) 120,000(h) 120,000(h) 60亿token 65亿token 45亿token 60亿token 60亿token 17

18 .多任务、多领域AIGC数据任务类型 [{"context": " 1、学习内容增加以数学为例，初中阶段主要学习初等代数、平面几何及数理统计三部分，而高中阶段则会补充学习集合论、三角函数、不等式、立体几何、统计与概率等内容。因此，很多同学在高中学习的初始阶段，会由于学习任务繁重，心理上出现多轮对话挫败及失落等负面情绪。因此，大家在中考完后的暑假可以完成一定预习，降低开学后的整体学习强度及难度。 2、理论性增强大家在初中学习时，物理、化学、地理等科目往往只要求大家对基本现象有个了解或者只做简单的定性分析，而高中学习需要大家熟知现阅读理解象背后的原理，并且可以独立完成难度更大的定量分析，以得到更加精准的结果。例如，初中物理只讲增大和减少摩擦力的方法，而高中物理则要分析和计算摩擦力的大小。 3、偏好综合考察不仅在同一学科内会出现对不同章节重点知识的联合考察，甚至会出现跨文案生成学科考察，需要大家灵活应用不同科目知识点完成作答。例如2022年高考数学（北京卷）的第7题，选取绿色冬奥会为特定情境创设数学问题，不仅考察了大家的思维及逻辑能力，也引导学生们关注现实生活中的环保问题。", "target": "高中学习相较初中有三个主要变化：学习内容增加，理论性增强，偏好综合考察。学生需要面对更多学科知识的学习和掌问答场景握，对基本现象要了解原理，同时需要在考试中应用不同科目知识点进行综合考察。"}] 通用医疗教育金融政务 ... 领域 18

19 .高品质方言多轮对话语音数据中国31个省份近10万名说话人提供，近6万小时说语多语话音轮音人识对复识别话刻别为多机器学习任务提供高性能支撑 19

20 .高品质外语多轮对话语音数据总时长总说话人 60+国家近7万名说话人语种（小时）（人数）英语 20,000 30,000 多轮对话韩语 9,500 5,000 日语 6,500 3,000 领域相关印尼语 4,600 3,000 马来语 3,500 4,000 人工采集和矫正土耳其语 3,500 2,000 菲律宾语 2,900 2,000 泰语 2,100 3,000 葡萄牙语 1,700 2,000 德语 1,600 2,000 阿拉伯语 1,500 2,000 俄罗斯语 1,400 2,000 意大利语 1,200 1,500 西班牙语 1,000 2,000 法语 1,000 2,000 越南语 1,000 1,000 乌尔都语 500 1,000 印地语 500 500 20

21 . 为近300家互联网及行业客户提供AI数据解决方案互联网智慧出行高质量数据集智慧金融智能社交智能家居垂直领域数据合规 MLOps 智能终端海外 Magic Data Confidential 21

22 .22

1点赞

1收藏

2下载