58同城语音识别技术探索和实践

语音是58同城用户之间的重要沟通媒介,58同城C端用户和B端用户之间可以通过网络音视频通话、电话建立连接,58同城数千名销售和客服人员会通过呼叫中心与客户进行电话沟通,这些场景下会产生大量的语音数据,这些语音数据可以通过语音识别技术转换为文本,并做进一步挖掘,以提取有价值的数据。本次议题将首先介绍语音识别在58同城的应用场景以及语音数据采集标注,然后详细介绍基于Kaldi的Chain Model模型的原理和实践,最后介绍我们在端到端语音识别方面的探索。

展开查看详情

1.【第12期】图像、NLP、语音技术在58的应用实践 欢迎关注AICUG人工智能技术社区 欢迎关注 58AILab 公众号 欢迎关注58技术公众号 (www.aicug.cn)

2.【第3讲】58同城语音识别技术 探索和实践 分享嘉宾:周维-58同城AI Lab算法资深工程师

3.个人简介 周维,58同城AI Lab算法资深开发工程师,2018年5月加入 58,先后从事智能客服、语音机器人、写稿机器人和语音识 别项目的算法工作,目前主要从事语音识别算法开发。2016 年硕士毕业于中国科学院大学,曾就职于菱歌科技,从事问答 机器人和社媒舆情方面的算法工作。 联系方式:zhouwei17@58.com

4.目录 n 58同城场景下的语音识别 n Chain Model实践 n 端到端语音识别探索

5.目录 n 58同城场景下的语音识别 n Chain Model实践 n 端到端语音识别探索

6. 58同城生活服务平台 58平台 发布帖子 销售 浏览帖子 (房源、职位…) (电销、直销) 客户 房产中介 C端用户 B端商家 企业 二手车商 客服 搬家公司 …

7. 呼叫中心销售客服 58同城呼叫中心简介 • 支撑数千名销售、客服人员工作 • 年通话数 1亿+,通话时长数百万小时 • 采用传统方式开展质检 呼叫中心 • 纯人工抽检录音,覆盖率低 • 人工质检效率低,人均单日可听3小时录 音

8.C端用户与B端商家隐私通话、微聊 二手房 二手车 租房 微聊

9. 58同城场景下的语音识别 呼叫中心 销售/客服 客户 情绪识别 性别识别 用户画像 语音识别 语音分析 自然语言处理 电话平台 C端用户 B端商家 微聊平台 ASR NLU C端用户 B端商家 对话管理 用户 AI

10. 58同城场景下的语音识别 呼叫中心 销售/客服 客户 语音识别 电话平台 C端用户 B端商家 微聊平台 ASR NLU C端用户 B端商家 对话管理 用户 AI

11. 58同城场景下的语音识别 音频转换 Segment1 VAD 录音文件 预处理 采样率转换 Segment2 mp3/wav… 说话人分离 声道判断 Segment3 喂 NLP 后处理 啊你好那个我… 解码服务 请问租出去吗 声学模型 解码图

12. 58同城场景下的语音识别 语音识别的难点 p 复杂的业务场景 p 嘈杂多变的环境 p 全国各地的口音

13. 58同城场景下的语音识别 喂 啊你好那个我… 请问租出去吗 语音转文字 标注数据 词典挖掘 声学模型 语言模型

14.目录 n 58同城场景下的语音识别 n Chain Model实践 n 端到端语音识别探索

15. Chain Model实践 语音识别基本问题 W ∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑃 𝑊|𝑋 " 你 好 • W=w1,w2,…,wL 表示单词序列, W*表示最有可能的单词序列 • X=x1,x2,…xT 表示声学特征序列 你 好 𝑝 𝑋|𝑊 𝑃 𝑊 𝑃 𝑊|𝑋 = ∝ 𝑝 𝑋|𝑊 𝑃 𝑊 𝑝 𝑋 W ∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑝 𝑋|𝑊 𝑃 𝑊 0s 帧长:25ms 帧移:10ms 2s " 声学模型AM 语言模型LM

16. Chain Model实践 基于HMM的语音识别流程 P(w1,w2,...,wN) = P (w1 ) · P (w2 |w1 ) · P (w3 |w1 , w2 ) · . . . · 分帧加窗 mfcc/fbank 声学模型 P (wN |w1 , . . . , wN-1 ) 语言模型 解码器 发音词典

17.Chain Model实践

18. Chain Model实践 GMM-HMM HMM Observation Probabilities GMMs 先确定t时刻的帧 所处的状态, Observation 并使用该状态的GMM, 得到条件概率 𝑝 𝑋|𝑊 𝑃 𝑊 𝑝 𝑂|𝑆 𝑃 𝑆 𝑃 𝑊|𝑋 = ∝ 𝑝 𝑋|𝑊 𝑃 𝑊 𝑃 𝑆|𝑂 = ∝ 𝑝 𝑂|𝑆 𝑃 𝑆 𝑝 𝑋 𝑝 𝑂

19. Chain Model实践 单音素解码 & 强制对齐 end ao3_s3 解码空间 ao3_s2 ao3_s1 好 h_s3 h_s2 h_s1 i3 _s3 i3 _s2 i3_s1 你 n_s3 n_s2 n_s1 start …… Frames

20. Chain Model实践 解码图 & Lattice WFSTàHCLG N-best路径 à Lattice

21. Chain Model实践 DNN-HMM HMM GMM Observation 𝑝 𝑂|𝑆 𝑃 𝑆 𝑃 𝑆|𝑂 = ∝ 𝑝 𝑂|𝑆 𝑃 𝑆 Output Layer Probabilities 𝑝 𝑂 Hidden Layer DNN DNN Hidden Layer 𝑃 𝑠# |𝑜# P 𝑜# 𝑃 𝑠# |𝑜# Input Layer 𝑃 𝑜# |𝑠# = ∝ 𝑃 𝑠# 𝑃 𝑠# Observation

22. Chain Model实践 DNN-HMM GMM-HMM 强制对齐 单音素训练 Input: 每条音频声学特征 训练数据 强制对齐 Output: 对应的音素序列 交叉熵损失函数CE GMM-HMM DNN训练 HMM迭代 三音素训练

23. Chain Model实践 序列区分性训练-训练思想 Lattice-based 极大似然训练 区分性训练 区分性训练 s1 分子 s1 分子 s1 s2 s2 s2 t1 t2 t3 t4 t5 t1 t2 t3 t4 t5 s3 分母 s1 分母 s1 s4 t1 t2 t3 t4 t5 s2 s2 Lattice s3 s3 s1 s4 每条样本 s4 s2 t1 t2 t3 t4 t5 t1 t2 t3 t4 t5 t1 t2 t3 t4 t5 𝑃(𝐴) 𝑃(𝐴) 𝑙𝑜𝑔𝑃(𝐴) 𝑙𝑜𝑔 𝑙𝑜𝑔 ∑& #$% 𝑃(𝑃# ) 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 + 𝑃(𝐷)

24. Chain Model实践 序列区分性训练-损失函数 交叉熵 CE 最大互信息 MMI sMBR Boosted MMI

25. Chain Model实践 序列区分性训练-Lattice based 标注文本 强制对齐 强制对齐 分子 Lattice CE训练 区分性训练 Lattice-based 训练数据 GMM-HMM DNN-HMM MMI HCLG 每条训练样本 解码 分母 Lattice

26. Chain Model实践 序列区分性训练-Lattice Free 强制对齐 强制对齐 分子 FST CE训练 区分性训练 Lattice-free 训练数据 GMM-HMM DNN-HMM MMI 对齐 HCLG HCP Phone Phone 分母 FST 序列 语言模型

27. Chain Model实践 Chain Model 分子 FST 强制对齐 强制对齐 GMM-HMM GMM-HMM Chain 训练数据 Chain 训练 单音素训练 三音素训练 Prepare Phone Ø 从头训练网络,不以CE作为起点; 语言模型 Ø 跳帧,每3帧处理一次; Ø 分母使用4-gram的phone语言模型; HCP Ø 基于上文biphone做建模单元; 构图 Ø 音素级建模和blank;

28. Chain Model实践 Chain Model 分子 FST 强制对齐 强制对齐 GMM-HMM GMM-HMM Chain 训练数据 Chain 训练 单音素训练 三音素训练 Prepare Phone Ø 从头训练网络,不以CE作为起点; 语言模型 Ø 跳帧,每3帧处理一次; Ø 分母使用4-gram的phone语言模型; HCP Ø 基于上文biphone做建模单元; 构图 Ø 音素级建模和blank;

29. Chain Model实践 Chain Model 网络结构 LF-MMI 目标 CE 目标 Output1 Output2 TDNNs CNN TDNN Observation 跳帧:每3帧处理一次