- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
自适应深度学习语音前端处理-付强
付强-之江实验室高级研究专家
博⼠,研究员,之江实验室⾼级研究专家。博⼠毕业于⻄安电⼦科技⼤学,美国OGI⼝语中⼼、爱尔兰Limeirck⼤学博⼠后。曾任阿⾥巴巴达摩院研究员,中科院声学所研究员,并曾创办北京先声互联科技有限公司,后被阿⾥巴巴全资收购。⻓期从事语⾳处理机器听觉研究和应⽤,是国内声学前端处理领域的开拓者,具有丰富的从学术研究到产品量产的产学研⼀体化经验。
分享介绍:
多声源场景中目标语音的分离或提取,或称“鸡尾酒会”问题,建立了从基于统计信号处理的盲源分离统一框架到与深度神经网络相结合的Neural Beamformer等深度信号处理的技术迭代路线,声学前端算法的多声源分离性能和收敛性在不断提升,提升了环境噪声和大回声下的唤醒和识别能力。
展开查看详情
1 .自适应深度学习语音前端处理 付强 – 之江实验室 高级研究专家 1
2 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 2
3 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 3
4 .01 自适应深度学习 痛点问题 远讲(场)交互,目标声源距离拾音设备较远,更易受 到声学回声、干扰声源、背景噪声、房间混响等各种不 利因素的影响。 听不清。。。 4
5 .01 自适应深度学习 问题和趋势 全双工:人机对话时,单讲状态的回声残余 和双讲状态的“透明”问题 “鸡尾酒会”场景:人声或类人声分离,难 点是信源在统计特性上的相似性 极低信噪比:主要是明显嘈杂的背景或设备 噪声 5
6 .01 自适应深度学习 基本框架 声信号处理和设备端AI算法需要同时做到高 性能、低成本(包括低资源占用和低成本适 配)和低功耗 凝练为自适应线性滤波器理论、基于深度 学习的后滤波和轻量化的任务处理三个核 心模块 6
7 .01 自适应深度学习 自适应滤波统一框架- 基于盲源分离的分离、解混响和回声消除 目标声源、干扰声源和回声声源建模为各自独立 的信号过程 统一的目标函数和优化方法,通过最大化信号源 之间独立性对各声源成分进行分离 性能较各模块简单级联进一步提高 Na, Yueyue, et al. "Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation. " Interspeech, 2021. Wang, Ziteng, et al. "A Semiblind Source Separation Approach for Speech Dereverberation." INTERSPEECH. 2020. 7
8 .01 自适应深度学习 深度信号处理-自适应回声消除和深度残余抑制相结合的NN3A算法 引入数据驱动的深度残余抑制算法,进行 线性滤波和深度模型的数据匹配训练 同时对声学回路中的噪声和非线性失真保 持鲁棒 线性滤波和深度模型优势互补,线性处理 降低了后续模型的任务学习难度 Wang, Ziteng, et al. "NN3A: Neural network supported acoustic echo cancellation, noise suppression and automatic gain control for real-time communications." ICASSP 2022, IEEE. Zhang, Shimin, et al. "Multi-task deep residual echo suppression with echo-aware loss." ICASSP 2022. IEEE. Wang, Ziteng, et al. "Weighted recursive least square filter and neural network based residual echo suppression for the aec-challenge." ICASSP 2021, IEEE. 相关算法在ICASSP AEC Challenge 2021/2022获综合第二名、第三名。 8
9 .01 自适应深度学习 前后端联合优化-多指向波束与语音唤醒的联合优化 远场数据模拟-降低数据采集成本 纯净语音数据、噪声数据和房间传函数据,针对目 标任务环境进行快速、批量数据生成 对多通道前端算法和任务模型进行匹配训练 前馈和反馈 预定义若干空间滤波器的配置,由后续关键词检测 决策最佳声学前端的最佳配置 同时,关键唤醒词的存在概率又反馈回空间滤波算 法中噪声协方差矩阵更新和滤波器系数的估计 Yueyue Na, Ziteng Wang, Liang Wang, Qiang Fu, "JOINT EGO-NOISE SUPPRESSION AND KEYWORD SPOTTING ON SWEEPING ROBOTS", ICASSP 2022. 9
10 .01 自适应深度学习 多模态和个性化 由于物理过程的复杂性,单个模态不足以覆盖全 部的有用信息,引入多模态信息有利于丰富可用 数据的多样性和互补性。 其他模态的信息可以融入到声学前端算法中,加 强声学前端算法的“选择性注意力”能力。 10
11 .01 自适应深度学习 基于人脸特征监督信息的目标声源增强和提取 纯离线的人脸识别、人脸检测、属性(年龄、 性别)分类、人体检测等 声源定位、波束形成和唇动检测等多模态融 合算法,有效应对强人声干扰 Li, Yun, et al. "A visual-pilot deep fusion for target speech separation in multitalker noisy environment." ICASSP 2020- 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020. 11
12 .01 自适应深度学习 基于个性化声纹辅助的回声消除和噪声抑制 模型中间隐层拼接speaker embedding 特征向量,提升了模型对于目标说话人和 背景非目标说话人的感知和区分能力 Zhang, Shimin, et al. "Personalized Acoustic Echo Cancellation for Full-duplex Communications." INTERSPEECH. 2022. 12
13 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 13
14 .02 模组方案和应用 AIoT模组方案架构 14
15 .02 模组方案和应用 典型语音和多模模组产品 高性价比模组 高性能语音模组 多模态模组 多核异构架构CPU(RISC-V); 基于多核异构架构, RTOS操作系统 双核A35 + 3Top算力NPU多核异构 RTOS操作系统 支持高性能6mic前端处理算法 强噪音免唤醒语音交互,支持4-8mic 支持2- 4mic前端处理算法 75db高噪声,-10db信噪比唤醒 支持本地视觉能力 -5db保持高唤醒率和识别率 面向移动机器人、扫地机等高自噪设备 面向地铁,商场等高噪声公众场所 面向音箱,家电等设备 15
16 .02 模组方案和应用 低功耗高性价比语音模组和芯片 高性能 低成本 低功耗 支2-4mic高抗噪前端算法 基于多核异构芯片 正常工作电流 < 80mA 支持离在线语音交互 RTOS操作系统 待机电流(可唤醒)< 10mA 16
17 . 02 模组方案和应用 声学、音频硬件研发设计及量产服务 声学平台模组选型 声学结构布局仿真 声学结构验证支持 智能语音产线测试 音频硬件产品开发 产品设计 产品开发 量产 音频原理图设计 音频layout设计 音频电性能验证 声学平台模组选型 17
18 .02 模组方案和应用 海尔、康佳全量和优酷多款投影仪 盲源 离线 快捷 One- 多轮 主动 声纹 智能 分离 识别 唤醒 shot 问答 收音 识别 纠错 智能电视(海尔、康佳全量)、机顶盒和投影仪(大文娱部分型号),累计装机量数千万、周活跃设备数约千万 助力海尔5代电视【全过程无接触语音操控技术】荣获2018创新技术 18
19 . 02 模组方案和应用 高性价比语音芯片应用 小雅音箱和生态 天猫精灵音箱和生态 海尔家电 每年数十个品类、百万级设备数 19
20 .02 模组方案和应用 高性能语音模组应用 科沃斯N9+ 扫地机智能语音交互版 宇树机械狗GO1天猫精灵版 业界首款语音交互扫地机 融合了机器狗优秀的运动性能 和天猫精灵友好的AI交互能力 解决了高自噪、大回声、移动远场、 低算力等技术挑战 20
21 . 02 模组方案和应用 多模态模组应用 2018年3月 2018年11月 2018年11月 2021年3月 语音售票服务上海南站开通地铁 上海虹桥火车站,虹桥机场2号航站楼,上海 全国几乎所有新建地铁均 北京大兴新机场线和 火车站,上海南站,浦东机场,汉中路等上海 将语音售票机列入建设要 首都机场线开通语音 主要交通枢纽地铁站全面开通服务,至今通过 求 售票服务 语音累计售出过百万笔 21
22 .02 模组方案和应用 多模态模组应用 钉钉M2S智能无人前台 语音自助售货机(样机) 全球首款识别身份后快速主动发 主动交互 起询问的的智能无人前台 不用每说一句话前都得先说出设 备名字,好像跟人对话一样通畅 高效 多人语音分离(demo) 双人小角度 22
23 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 23
24 .03 面向机器人的语音交互系统 机器人语音前端和识别系统 唇动、人脸等视觉特征 机器视觉感知 Mask 深度学习后滤波 自研麦克风阵列 自适应滤波 语音前端任务算法 语音后端任务 (DNN Beamformer) 拓扑结构优化 回声消除 声纹识别 语音识别finetune 语音分离 声透明、减震降噪 波束成形 声源定位 音视频说话人活动检测 环境噪声抑制 设计 盲源分离 语音活动检测 语音合成 混响抑制 功放扬声器模组 功放选型 参考信号 扬声器选型 音箱声学设计 24
25 .03 面向机器人的语音交互系统 双环差分环阵拓扑结构设计和优化 传声器阵列拓扑设计和优化:采用双环麦克风阵型,外环和内环相 机器人头壳、双环差分阵列和采集板 邻的两个麦克风可以构成差分列阵,能够有效的抑制方向性干扰。 同时,在八组差分阵列的基础上,再使用波束形成算法,可以进一 步增强对干扰信号的抑制能力。 25
26 .03 面向机器人的语音交互系统 双人同时说话的语音分离 26
27 .目录 01 自适应深度学习 02 模组方案和应用 03 面向机器人的语音交互系统 04 机器听觉展望 27
28 .04 机器听觉展望 “自下而上”和“自上而下” 的听觉注意力交互机理 技术路线:遵循听觉仿生机理、物理建模 (自适应空间滤波)和数据驱动(深度学 习、生成式大模型)交叉融合 研究内容:听觉感知-认知-行动的全链条视 角,研究声信号的获取、处理、识别和理 解的计算框架 听觉注意力机制牵引的计算框架 28
29 .29