申请试用
HOT
登录
注册
 

基于语音大模型的零样本学习的语音生成和翻译-刘树杰

示说网官方
/
发布于
/
565
人观看

刘树杰-微软亚洲研究院首席研究经理

微软亚洲研究院首席研究员和研究经理,2012年博士毕业于哈尔滨工业大学。2012年加入微软亚洲研究院,从事自然语言处理、语音处理以及机器学习相关工作。在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。获得国际自然语言和语音处理评测比赛多项第一。担任多个国际会议审稿人及领域主席。其研究成果被广泛应用于Microsoft Translator、Skype Translator、Microsoft IME和微软语音服务等微软重要产品中。


分享介绍:

     随着大语言模型在自然语言处理中的应用,语音大语言模型也逐渐受到更多关注。在本报告中,我们将介绍基于大语言模型的零样本语音合成技术,即VALL-E。VALL-E利用了大语言模型在上下文学习方面的能力,仅需使用未知说话人的三秒录音作为音频提示,即可生成高质量的个性化语音。此外,我们还进一步将VALL-E扩展为VALL-E X,实现了高质量的跨语言语音合成,显著减轻了外语口音的问题。通过利用大语言模型技术,进一步的我们将VALL-E (X) 从语音合成任务扩展到了语音识别和机器翻译,并使用一个统一的模型来实现语音识别,翻译和合成三个任务,从而可以实现高质量的基于单一模型的零样本级联式语音到语音的翻译。

1点赞
1收藏
12下载
确认
3秒后跳转登录页面
去登陆