自适应深度学习语音前端处理-付强

播放视频

视频文档

自适应深度学习语音前端处理-付强

下载 7

示说网官方

发布于

576

人观看

#信息技术

付强-之江实验室高级研究专家

博⼠，研究员，之江实验室⾼级研究专家。博⼠毕业于⻄安电⼦科技⼤学，美国OGI⼝语中⼼、爱尔兰Limeirck⼤学博⼠后。曾任阿⾥巴巴达摩院研究员，中科院声学所研究员，并曾创办北京先声互联科技有限公司，后被阿⾥巴巴全资收购。⻓期从事语⾳处理机器听觉研究和应⽤，是国内声学前端处理领域的开拓者，具有丰富的从学术研究到产品量产的产学研⼀体化经验。

分享介绍：

多声源场景中目标语音的分离或提取，或称“鸡尾酒会”问题，建立了从基于统计信号处理的盲源分离统一框架到与深度神经网络相结合的Neural Beamformer等深度信号处理的技术迭代路线，声学前端算法的多声源分离性能和收敛性在不断提升，提升了环境噪声和大回声下的唤醒和识别能力。

展开查看详情

1 .自适应深度学习语音前端处理付强 – 之江实验室高级研究专家 1

2 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 2

3 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 3

4 .01 自适应深度学习痛点问题  远讲（场）交互，目标声源距离拾音设备较远，更易受到声学回声、干扰声源、背景噪声、房间混响等各种不利因素的影响。听不清。。。 4

5 .01 自适应深度学习问题和趋势  全双工：人机对话时，单讲状态的回声残余和双讲状态的“透明”问题  “鸡尾酒会”场景：人声或类人声分离，难点是信源在统计特性上的相似性  极低信噪比：主要是明显嘈杂的背景或设备噪声 5

6 .01 自适应深度学习基本框架  声信号处理和设备端AI算法需要同时做到高性能、低成本（包括低资源占用和低成本适配）和低功耗  凝练为自适应线性滤波器理论、基于深度学习的后滤波和轻量化的任务处理三个核心模块 6

7 .01 自适应深度学习自适应滤波统一框架- 基于盲源分离的分离、解混响和回声消除  目标声源、干扰声源和回声声源建模为各自独立的信号过程  统一的目标函数和优化方法，通过最大化信号源之间独立性对各声源成分进行分离  性能较各模块简单级联进一步提高  Na, Yueyue, et al. "Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation. " Interspeech, 2021.  Wang, Ziteng, et al. "A Semiblind Source Separation Approach for Speech Dereverberation." INTERSPEECH. 2020. 7

8 .01 自适应深度学习深度信号处理-自适应回声消除和深度残余抑制相结合的NN3A算法  引入数据驱动的深度残余抑制算法，进行线性滤波和深度模型的数据匹配训练  同时对声学回路中的噪声和非线性失真保持鲁棒  线性滤波和深度模型优势互补，线性处理降低了后续模型的任务学习难度  Wang, Ziteng, et al. "NN3A: Neural network supported acoustic echo cancellation, noise suppression and automatic gain control for real-time communications." ICASSP 2022, IEEE.  Zhang, Shimin, et al. "Multi-task deep residual echo suppression with echo-aware loss." ICASSP 2022. IEEE.  Wang, Ziteng, et al. "Weighted recursive least square filter and neural network based residual echo suppression for the aec-challenge." ICASSP 2021, IEEE.  相关算法在ICASSP AEC Challenge 2021/2022获综合第二名、第三名。 8

9 .01 自适应深度学习前后端联合优化-多指向波束与语音唤醒的联合优化  远场数据模拟-降低数据采集成本  纯净语音数据、噪声数据和房间传函数据，针对目标任务环境进行快速、批量数据生成  对多通道前端算法和任务模型进行匹配训练  前馈和反馈  预定义若干空间滤波器的配置，由后续关键词检测决策最佳声学前端的最佳配置  同时，关键唤醒词的存在概率又反馈回空间滤波算法中噪声协方差矩阵更新和滤波器系数的估计  Yueyue Na, Ziteng Wang, Liang Wang, Qiang Fu, "JOINT EGO-NOISE SUPPRESSION AND KEYWORD SPOTTING ON SWEEPING ROBOTS", ICASSP 2022. 9

10 .01 自适应深度学习多模态和个性化  由于物理过程的复杂性，单个模态不足以覆盖全部的有用信息，引入多模态信息有利于丰富可用数据的多样性和互补性。  其他模态的信息可以融入到声学前端算法中，加强声学前端算法的“选择性注意力”能力。 10

11 .01 自适应深度学习基于人脸特征监督信息的目标声源增强和提取  纯离线的人脸识别、人脸检测、属性（年龄、性别）分类、人体检测等  声源定位、波束形成和唇动检测等多模态融合算法，有效应对强人声干扰  Li, Yun, et al. "A visual-pilot deep fusion for target speech separation in multitalker noisy environment." ICASSP 2020- 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020. 11

12 .01 自适应深度学习基于个性化声纹辅助的回声消除和噪声抑制  模型中间隐层拼接speaker embedding 特征向量，提升了模型对于目标说话人和背景非目标说话人的感知和区分能力  Zhang, Shimin, et al. "Personalized Acoustic Echo Cancellation for Full-duplex Communications." INTERSPEECH. 2022. 12

13 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 13

14 .02 模组方案和应用 AIoT模组方案架构 14

15 .02 模组方案和应用典型语音和多模模组产品高性价比模组高性能语音模组多模态模组  多核异构架构CPU（RISC-V）;  基于多核异构架构, RTOS操作系统  双核A35 + 3Top算力NPU多核异构 RTOS操作系统  支持高性能6mic前端处理算法  强噪音免唤醒语音交互，支持4-8mic  支持2- 4mic前端处理算法  75db高噪声，-10db信噪比唤醒  支持本地视觉能力  -5db保持高唤醒率和识别率  面向移动机器人、扫地机等高自噪设备  面向地铁，商场等高噪声公众场所  面向音箱，家电等设备 15

16 .02 模组方案和应用低功耗高性价比语音模组和芯片高性能低成本低功耗支2-4mic高抗噪前端算法基于多核异构芯片正常工作电流 < 80mA 支持离在线语音交互 RTOS操作系统待机电流（可唤醒）< 10mA 16

17 . 02 模组方案和应用声学、音频硬件研发设计及量产服务声学平台模组选型声学结构布局仿真声学结构验证支持智能语音产线测试音频硬件产品开发产品设计产品开发量产音频原理图设计音频layout设计音频电性能验证声学平台模组选型 17

18 .02 模组方案和应用海尔、康佳全量和优酷多款投影仪盲源离线快捷 One- 多轮主动声纹智能分离识别唤醒 shot 问答收音识别纠错  智能电视(海尔、康佳全量)、机顶盒和投影仪(大文娱部分型号)，累计装机量数千万、周活跃设备数约千万  助力海尔5代电视【全过程无接触语音操控技术】荣获2018创新技术 18

19 . 02 模组方案和应用高性价比语音芯片应用小雅音箱和生态天猫精灵音箱和生态海尔家电  每年数十个品类、百万级设备数 19

20 .02 模组方案和应用高性能语音模组应用科沃斯N9+ 扫地机智能语音交互版宇树机械狗GO1天猫精灵版业界首款语音交互扫地机融合了机器狗优秀的运动性能和天猫精灵友好的AI交互能力解决了高自噪、大回声、移动远场、低算力等技术挑战 20

21 . 02 模组方案和应用多模态模组应用 2018年3月 2018年11月 2018年11月 2021年3月语音售票服务上海南站开通地铁上海虹桥火车站，虹桥机场2号航站楼，上海全国几乎所有新建地铁均北京大兴新机场线和火车站，上海南站，浦东机场，汉中路等上海将语音售票机列入建设要首都机场线开通语音主要交通枢纽地铁站全面开通服务，至今通过求售票服务语音累计售出过百万笔 21

22 .02 模组方案和应用多模态模组应用钉钉M2S智能无人前台语音自助售货机(样机)  全球首款识别身份后快速主动发  主动交互起询问的的智能无人前台  不用每说一句话前都得先说出设备名字，好像跟人对话一样通畅高效多人语音分离(demo)  双人小角度 22

23 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 23

24 .03 面向机器人的语音交互系统机器人语音前端和识别系统唇动、人脸等视觉特征机器视觉感知 Mask 深度学习后滤波自研麦克风阵列自适应滤波语音前端任务算法语音后端任务（DNN Beamformer）  拓扑结构优化  回声消除  声纹识别  语音识别finetune  语音分离  声透明、减震降噪  波束成形  声源定位  音视频说话人活动检测  环境噪声抑制设计  盲源分离  语音活动检测  语音合成  混响抑制功放扬声器模组  功放选型参考信号  扬声器选型  音箱声学设计 24

25 .03 面向机器人的语音交互系统双环差分环阵拓扑结构设计和优化传声器阵列拓扑设计和优化：采用双环麦克风阵型，外环和内环相机器人头壳、双环差分阵列和采集板邻的两个麦克风可以构成差分列阵，能够有效的抑制方向性干扰。同时，在八组差分阵列的基础上，再使用波束形成算法，可以进一步增强对干扰信号的抑制能力。 25

26 .03 面向机器人的语音交互系统双人同时说话的语音分离 26

27 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 27

28 .04 机器听觉展望 “自下而上”和“自上而下” 的听觉注意力交互机理  技术路线：遵循听觉仿生机理、物理建模（自适应空间滤波）和数据驱动（深度学习、生成式大模型）交叉融合  研究内容：听觉感知-认知-行动的全链条视角，研究声信号的获取、处理、识别和理解的计算框架听觉注意力机制牵引的计算框架 28

29 .29

1点赞

0收藏

7下载