- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
语音生成式模型前沿进展-谢磊
谢磊-西北工业大学教授/博导,音频语音与语言处理实验室负责人
西北工业大学教授,博导。曾在比利时布鲁塞尔自由大学、香港城市大学和香港中文大学工作,教育部"新世纪优秀人才支持计划",陕西省青年科技新星、西安市青年科技奖、亚太信号与信息处理协会Distinguished Lecturer。担任IEEE语音和语言技术委员会(IEEE SLTC)委员、中国计算机学会语音听觉与对话专委会常务委员、国际语音通信协会ISCA中文口语语言处理兴趣组(SIG-CSLP)副主席、IEEE/ACM Transactions on Audio, Speech and Language Processing高级领域编委(SAE)等。
分享介绍:
当前,以GPT为代表的生成式模型成为人工智能领域的最大热点。语音作为人机交互特别是以ChatGPT为代表的“超级助手”入口,作用至关重要。本报告将探讨语音生成式模型的前沿进展,包括典型方案与技术、挑战问题、效果展示和未来展望。
展开查看详情
1 .语音生成式模型前沿进展 谢磊 – 西北工业大学教授、音频语音与语言处理实验室负责人 http://www.npu-aslp.org 1
2 .语音生成 — Speech Generation Text Speech TTS Speech Speech Speech Voice Conversion Generation Speech2Speech Translation Speech Editing Speech Enhancement Image/ Speech Video… 2
3 .内容提要 • 超拟人TTS • 高表现力TTS • 基于自然语言描述的语音生成 • 高表现力与实时语音转换 • 多任务语音生成大模型 3
4 .内容提要 • 超拟人TTS • 高表现力TTS • 基于自然语言描述的语音生成 • 高表现力与实时语音转换 • 多任务语音生成大模型 4
5 .超级助手的语音界面 AI Pin https://hu.ma.ne/aipin 5
6 .超拟人TTS • 即兴/口语事件的表达 • 上下文自动适配:语境、情绪/情感 Hanzhao Li,Xinfa Zhu, Liumeng Xue, Yang Song, Yunlin Chen, Lei Xie,SponTTS: Modeling and Transferring Spontanous Style for TTS, submitted to ICASSP2024 Jian Cong, Shan Yang, Na Hu, Guangzhi Li, Lei Xie, Dan Su, Controllable Context-aware Conversational Speech Synthesis, Interspeech2021, https://arxiv.org/abs/2106.10828 Haohan Guo, Shaofei Zhang, Frank K. Soong, Lei He, Lei Xie, Conversational End-to-End TTS for Voice Agents, IEEE SLT 2020 https://arxiv.org/abs/2005.10438 6
7 .超拟人TTS:口语事件/语气词 事件 文本 女 男1 男2 不过她算是一位创作型的女歌手,这个 重读 岁数还有些发展空间 快速读 啊对对就是我的电话。 停顿 送两个月的话,嗯那个手续费还要吧 我一下子有点懵,嗯?他刚才不是还在 疑问 这里吗? 应答 哎!稍等一下,我马上就来。 出乎意料 诶,这话可不兴说! 感叹 哇,你什么时候变得这么厉害的。 7
8 .超拟人TTS:口语事件/语气词 事件 文本 女 男1 男2 提醒 诶,你看那个人是在干嘛? 醒悟 哦,原来如此,你真厉害啊。 啧 就觉得,啧突然就有一种成就感。 这个字,嘶应该是念囡吧,我也不是很 嘶 确定。 哼,你别以为我不知道你背着我出去玩 生气的哼 了。 今天上班了吗?看到一个微博的段子好 笑声喜 好笑哈哈。 表现力强的短语 哇塞,你好厉害啊,可以给我签个名吗? 8
9 .超拟人TTS:情绪/情感 事件 文本 女 男1 男2 我真的,我就站在电梯里,就感觉哇, 喜 好暖啊。 怒 喂,你之前可不是这样说的呀。 哀 哎,我怎么又做错了,是不是我太笨了。 唉?你居然就是张三,我之前怎么没见 惊 过你? 厌 真的真的没有想到,啧你是这种人。 撒娇 嗯,好累呀,今晚你做饭好不好嘛。 敷衍 对,我在听,你继续说。 卖萌 哼,大坏蛋,还不哄哄人家。 9
10 .超拟人TTS 说话人 抄本 合成效果 女 {诶[提醒/招呼],亲爱的,你看看快到什么日子了呀?} 卖萌 男 啊[疑问]?我想想,嘶[嘶]你的生日?嗯[停顿]是我的生日吗?还是恋爱纪念日?呃[非常规停顿]好像[非常规停顿]都不对。 女 哎呀是双十一啦。双十一大型[主重读]购物节,有些平台满三百减五十,优惠力度可大了[主重读]。天气要降温了,{亲爱的,你要不要给你 的小可爱[非常规停顿]买件羽绒服呀[停顿]。}撒娇 男 {哦[醒悟]!原来是这个。好呀,那我们一起来挑一挑吧。}惊 女 {嗯,你看这件白色[次重读]的怎么样,毛绒绒的,真可爱[次重读]。}卖萌 男 诶[不同意或出乎意料],白色的吗?确实挺可爱的,但是[延长音]白色的话,啧[啧]会不会很不耐脏? 女 {可是真的好好看诶,就买这个嘛,好不好?}撒娇 男 要不看看这件深灰色的吧,这个颜色挺耐脏的,而且看着也很暖和。 女 {不要不要,这件版型不好看,穿上就是会很显胖。}撒娇 男 那这件卡其色的呢?我感觉[延长音]卡其色是个很百搭的颜色,这款买家秀也挺好看的,要不[非常规停顿]就这个? 女 可是[延长音]我已经有很多件卡其色的外套了,衣柜太单调了。 男 网上购物确实很难挑到合适的,而且也不知道[非常规停顿]到底质量怎么样,不如这周末我陪你去逛街,咱们去实体店试试看吧?顺便还可以 去小吃街逛一逛。 女 {好啊好啊,我也好久没出去玩儿了呢,我要吃很多好吃的,海底捞,炸鸡,糖葫芦,嘶[嘶],不行了不行了,口水都要流下来了。}喜 男 {你这个小馋猫,好[延长音],都给你买。}喜 女 {亲爱的,你真好呵呵[笑]。}喜 10
11 .超拟人TTS • 基于低质数据的“客服机器人”上线美团 合成 文本 音频 好的了解到了,我马上催促商家给您核实处理的,请您放心。 好的先生,我这边会记录下您这个诉求的,请问还有其他可以帮 到您的吗,请问还有其他可以帮到您的吗。 女士您好,非常抱歉让您久等了。 您好我姓申,请问有什么可以帮您。 好的了解到了,我了解到了先生,您看您的心情非常理解的,就 是说在您购买加量券包时呢,系统有明确的提示加量券包的有效 期,需要您确认后呢才能进行购买。 我看到是您在四月二十三号购买这个红包吗? 11
12 .内容提要 • 超拟人TTS • 高表现力TTS • 基于自然语言描述的语音生成 • 高表现力与实时语音转换 • 多任务语音生成大模型 12
13 .基于因素解耦的多风格多情感TTS • 语音中的因素: Linguistic Para-Linguistic Non-Linguistic • 语言(Linguistic) • 风格(Style):说话方式,如新闻播报、童话故事、武侠小说、唐诗宋词… • 情感(Emotion):高兴、生气、悲伤、愤怒、恐惧、厌恶… • 说话人音色(Speaker Timbre) • Expressive-VITS:VITS + 半监督对比学习 • 对比学习(Contrastive learning) – 句级和情感/风格级 • 半监督学习(Semi-supervised training) – 利用标注和无标注数据 • 互信息 (MI) 因素解耦 Expressive-VITS Style Adaptor Xinfa Zhu, Yuke Li, Yi Lei, Ning Jiang, Guoqing Zhao, Lei Xie, Multi-Speaker Expressive Speech Synthesis via Semi-supervised Contrastive Learning, https://arxiv.org/abs/2310.17101 13
14 .基于因素解耦的多风格多情感TTS 风格/ 中文说 英文说 文本 情感 话人 话人 诗歌/ 长风破浪会有时,直挂云帆济沧海。 高兴 诗歌/ 天生我材必有用,千金散尽还复来。 生气 童话/ 进入小木屋后,里面竟然整齐排列着七张小小的床 惊讶 童话/ 听到猫头鹰叫声的白雪公主,越走越觉得森林好可怕。 害怕 英文/ I'll build a house out of candy and gingerbread! 高兴 英文/ Hope is the thing with feathers that perches in the soul. 悲伤 T-SNE可视化:风格、情感、说话人有效解耦 14
15 .基于因素解耦的多风格多情感TTS 风格文本(+情感) XL F1 M2 Oba (happy)不久以后,王后果然生下了一个可爱的小公主。 (happy)白雪公主非常善良,有爱心,她经常和动物一起玩耍。 (sad)可是,好景不长,白雪公主的母亲生病去世了。 (sad)国王向白雪公主介绍新王后时,她还正为死去的母后感到悲伤呢。 童话 (angry)于是,她就命令宫廷的武士说,我不想再看到白雪公主了。 (angry)给我杀了她!把她的心和舌头都带回来,做为你杀死她的证据。 (fear)听到猫头鹰叫声的白雪公主,越走越觉得森林好可怕。 (surprise)突然,眼前有一栋小木屋,于是便又惊又喜的叫着,啊,是小木屋。 (surprise)进入小木屋后,里面竟然整齐排列着七张小小的床。 (happy)春光明媚,碧波荡漾,王后带着公主在湖边愉快地玩耍。 (surprise)突然,凶狠无比的恶魔出现,抢走了公主。 (fear)天空布满乌云,阴风阵阵,就好像走到了阴曹地府。 童话 (sad)王后悲痛万分,四处寻找公主,终于,在山脚下找到了正在哭泣的公主 (sad)她对恶魔说,求求你,千万不要伤害公主,我什么都可以给你。 (surprise)正当恶魔得意之时,一位身披金甲的勇士出现了。 (angry)可恶的恶魔!你胡作非为,竟敢抓走公主! (angry)快快放了公主,否则,我就将代表正义消灭你! (surprise)霎时间,勇士挥舞金色圣剑,千钧一发之际救下了公主。 (happy)公主瞬间喜欢上了勇士,他们从此过着幸福快乐的生活。 (sad)只见太后面上,全是泪水,显是伤心已极。 (sad)却不知是什么大事,居然令她如斯之痛。 (angry)只见一名少年急急奔上台阶,愤怒的大声道。 (angry)"母后!武德侯害死皇兄,我定要取他首级,给皇兄报仇啊!" (fear)此言一出,阶下文武众臣都大惊失色。 武侠 (fear)惊呼,武德侯有功与国家,太后万万不可呀! (surprise)“为什么不能法办武德侯?他罪有应得!” (fear)那老妇听得此言,口唇颤抖,好似要说什么。 (fear)几次想要起身,眼前一黑,害怕万分。 (happy)此时一男童不急不忙地走上宫殿,开心的道。 (happy)皇叔勿惊,妙计已在心中,且看我的。这件事儿包在我身上。 (sad)皇上昨日被武德侯所害,惨死皇宫,满城悲伤。 (angry)只见一名少年急急奔上台阶,生气的说。 (angry)"气死我了!母后!武德侯害死皇兄,咱们还等什么?快快下令诛杀他全家满门,给皇兄报仇啊!" (netural)良久良久,那老妇终于咬住下唇,举起颤抖不止的手,轻轻的挥了挥。 (happy)众大臣见状大喜,同时拜伏在地,大声道:"太后吉祥!太后圣明!太后威武!" 武侠 (happy)皇上终于可以瞑目了。 (netural)城中百姓或躲炕下,或藏窖中,无一人敢探头张望。 (angry)大军开至王府胡同,当先一将喝道:"下马!快给我下马!" (fear)听着可怕骇人的轰天巨响,每一下撞击声都敲进他们的心窝深处,似要将他们的魂胆撞碎。 (sad)几个妇人挤在一起,泣不成声。 (fear)一名长者走上前来,颤声道:"这……这到底是怎么回事?为何有官兵杀来?" (sad)那少妇摇了摇头,道:"昨日前线传来消息,说这次御驾亲征已然惨败。" 15
16 .跨语种TTS中的零样本(Zero-shot)情感迁移 • 影视配音TTS:将语种L1说话人参考语音里的情感迁移到语种L2 • 挑战1:语言差异导致外国口音问题(Foreign Accent) • 挑战2:口音相关和情感相关的韵律解耦 • 挑战3:从L1说话人参考音频中有效提取未见情感表达准确生成L2说话人语音 • 非自回归预测编码(NPC):解决外国口音问题 • 自监督方法,仅根据语音局部依赖性学习语音表征 • 分层情感编码:自监督学(SSL)模型Hubert 的层级表征:更强的情感建模 –情感不仅是声 学相关的,也是文本语境相关的 • 浅层:语境相关的情感,声学细节感知有限 • 深层:声学相关的情感,完善情感细节 • 预训练 + 联合Finetune 中文泰语 中文发音人 情感参考音频 中文发音人说泰语 16
17 . 跨语种TTS中的零资源(Zero-shot)情感迁移 中文原声 泰语TTS合成配音(迁移中文语音中的情感) Yuke Li, Xinfa Zhu, Yi Lei, Hai Li, Junhui Liu, Danming Xie, Lei Xie, Zero-Shot Emotion 《狙击之王》AI配音片段(版权:爱奇艺) Transfer For Cross-Lingual Speech Synthesis, IEEE ASRU 2023, https://arxiv.org/abs/2310.03963 17
18 .StyleS2ST: 端到端语音到语音翻译中零样本风格迁移 • S2ST典型方案:ASR + MT + TTS • StyleS2ST:一个端到端系统完成“HeyGen” • 语料构建: • 英中双语的多说话人 TTS构建平行语料 • 国际音标 (IPA) 作为输入使不同语言的共享语音空间 • StyleS2ST端到端系统: 源(英) 目标(中) • Unit: Hubert 1000 unit 11层特征+ k-means,保留时长 • 语音到单元(Speech2Unit) • 单元到语音(Unit2Speech) • 风格适应器(Style Adaptor):局部风格建模,借用翻译 Attention辅助声学模型Attention学习 Kun Song, Yi Ren, Yi Lei, Chunfeng Wang, Kun Wei, Lei Xie, Xiang Yin, Zejun Ma, StyleS2ST: Zero-shot Style Transfer for Direct Speech-to-speech Translation, ICASSP2023 https://arxiv.org/abs/2305.17732 18
19 .HiGNN-TTS:基于GNN与多层韵律建模的长语音合成 • 长语音(如有声书)合成的挑战: • 多层韵律兼顾:字、句、跨句… • 上下文连贯性 • HiGNN-TTS:FS2 + 多层次图韵律编码器 + 预训练Mel编码器 • 多层次图编码器: 句法图对文本韵律模式进行层次建模 • 先前、当前和下一句的句法图,学习词级、句级和跨句上下文的多级韵律表表征 • 预训练的Mel编码器:通过声学信号的自监督建模语音中的韵律 • 自监督/无监督的建模方式帮助捕捉更广的韵律变化 Liumeng Xue; Frank K. Soong; Shaofei Zhang; Lei Xie, ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in Paragraph-based TTS, IEEE Trans. on ASLP https://arxiv.org/abs/2209.06484 Dake Guo, Xinfa Zhu, Liumeng Xue, Tao Li, Yuanjun Lv, Yuepeng Jiang, Lei Xie, HiGNN-TTS: Hierarchical Prosody Modeling with Graph Neural Networks for Expressive Long-form TTS, ASRU2023 https://arxiv.org/pdf/2309.13907.pdf 19
20 .内容提要 • 超拟人TTS • 高表现力TTS • 基于自然语言描述的语音生成 • 高表现力与实时语音转换 • 多任务语音生成大模型 说话人插值 0.0 0.25 0.5 0.75 1.0 毛毛 -> 萧晴雪 20
21 .PromptSpeaker: 基于自然语言描述的说话人生成 21
22 .PromptSpeaker: 基于自然语言描述的说话人生成 • 自然语言描述控制说话人音色生成 • 说话人生成模块 • 声纹模型:提取说话人表征向量 • Prompt Encoder:编码文本描述信息 • Glow:建立语义表征与说话人表征间的映射 • 采样说话人表征向量:实现说话人生成 • 基于Prompt来控制说话人表征的采样过程 • Zero-Shot TTS模块 • 声纹表征 + VITS 22
23 .PromptSpeaker: 基于自然语言描述的说话人生成 • 数据构建: • 高质量数据:人工标注,每个说话人由多个人进行描述 • 低质量数据:自动标注,根据说话人性别年龄来自动生 成文本描述 描述 合成音频 我想要一个萌萌的小男孩的声音 我想要生成磁性、深沉的男声的声音 我想要生成阳光积极的男声的声音 我想要生成甜美可爱的女声的声音 Yongmao Zhang, Guanghou Liu, Yi Lei, Yunlin Chen, Hao Yin, Lei Xie, Zhifei Li, PromptSpeaker: Speaker Generation Based on Text Descriptions, ASRU 20243, https://arxiv.org/abs/2310.05001 23
24 .PromptStyle: 基于自然语言描述的风格迁移 • 基于自然语言描述控制风格迁移 • 解决基于说话人ID或参考音频迁移的局限,用户友好,风格控制更灵活 • 数据构建 • 多人多风格中文TTS数据,标注自然语言风格描述 • 利用GPT重写提高鲁棒性 • PromptStyle = VITS + 风格编码器 + 提示编码器 • 风格编码器:参考编码器 + 说话人对抗 • 提示编码器:BERT + 适配线性层 • 两阶段训练 • Stage 1: VITS + 风格编码器 • Stage 2: VITS + 风格编码器 + 提示编码器 冻结声学模型部分参数微调 (英) 目标(中) 文本描述 目标发音人 迁移效果 感到难以置信夹杂着赞许 以凄凉和无助的语气恳求道 Guanghou Liu, Yongmao Zhang, Yi Lei, Yunlin Chen, Rui Wang, Zhifei Li, Lei Xie, PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions, Interspeech2023, https://arxiv.org/abs/2305.19522 24
25 .PromptVC: 基于自然语言描述的语音转换 • 基于Prompt控制转换语音的风格:将源语音风 格转换为自然语言描述的风格 • 情感、音色、说话人年龄等 • 用户友好,无需预留标签或挑选参考音频 • 两阶段训练:VITS+扩散模型 • VITS • 韵律建模,提升转换后音频的韵律表现 • 风格编码器:提取风格相关的表征 • 内容表征: • Step 1. Hubert+Kmeans: 最大程度去除源说话 人的风格信息,保留内容信息 • Step 2. 去重,不同风格时长不同,使用声学模 型重新预测时长,不保留源时长 • Step 3. Kmeans label替换为Kmeans中心簇, PromptVC主体结构 内容表征提取 扩散模型训练 中心簇保留更多相对位置信息,缓解变调 • 扩散模型 Jixun Yao, Yuguang Yang, Yi Lei, Ziqian Ning, Yanni Hu, Yu Pan, Jingjing Yin, Hongbin Zhou, Heng Lu, Lei Xie, PromptVC: Flexible Stylistic Voice • VITS中风格编码器提取的表征为加噪起点,终端分为为高斯噪声 Conversion in Latent Space Driven by Natural Language Prompts, https://arxiv.org/abs/2309.09262 • 基于U-Net结构,借助ChatGLM2 提取文本嵌入,作为扩散模型的条件 25
26 .PromptVC: 基于自然语言描述的语音转换 源音频 语言描述 转换音频 妙龄少女流利地说,有质疑的语气,情感上则 是有些惊讶 一个专业且具有权威性的风格,声音柔和有磁 性,成熟男性 青年男性声音高昂,语气冷酷,显得有点愤怒 的样子 带有哭腔的说,有质疑慌张的语气,情感上则 是惧怕的,年轻女性的音色 26
27 .内容提要 • 超拟人TTS • 高表现力TTS • 基于自然语言描述的语音生成 • 高表现力与实时语音转换 • 多任务语音生成大模型 27
28 .高表现力语音转换在影视和游戏中的应用 《赘婿》AI泰语配音片段(版权:爱奇艺) 一人饰演多个角色 网易伏羲游戏,一人饰演多个角色,快速内容生成 Ziqian Ning, Qicong Xie, Pengcheng Zhu, Zhichao Wang, Liumeng Xue, Jixun Yao, Lei Xie, Mengxiao Bi, Expressive-VC: Highly Expressive Voice Conversion with Attention Fusion of Bottleneck and Perturbation Features, ICASSP2023, https://arxiv.org/abs/2211.04710 28
29 .DualVC:实时流式语音转换 • RTC场景,流式处理: • 性能要求高:模型参数小,CPU、内存占用低,延迟与稳定性要求高 • 有限下文信息:在没有或有限的未来信息的情况下,建模难度大 • 模型内知识蒸馏 • 使用非参数共享的双模卷积,包括因果和非因果两种卷积 • 将非流式(Teacher)和流式(Student)统一到一个模型中,联合优化 • 混合预测编码(HPC) • 结合对比预测编码(CPC)和自回归预测编码(APC) • 卓越流式性能,仅252.8毫秒 因果卷积改造 Ning Z, Jiang Y, Zhu P, et al. DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding. Interspeech 2023. https://arxiv.org/abs/2305.12425 DualVC结构图 29