58同城语音识别技术探索和实践

播放视频

视频文档

58同城语音识别技术探索和实践

下载 12

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
视频嵌入链接文档嵌入链接
<iframe src="https://www.slidestalk.com/AICUG/58_Speech_Recognition_Research?embed&video" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

AICUG人工智能社区

发布于

4年前

4158

人观看

#信息技术 cassandra 数据库

语音是58同城用户之间的重要沟通媒介，58同城C端用户和B端用户之间可以通过网络音视频通话、电话建立连接，58同城数千名销售和客服人员会通过呼叫中心与客户进行电话沟通，这些场景下会产生大量的语音数据，这些语音数据可以通过语音识别技术转换为文本，并做进一步挖掘，以提取有价值的数据。本次议题将首先介绍语音识别在58同城的应用场景以及语音数据采集标注，然后详细介绍基于Kaldi的Chain Model模型的原理和实践，最后介绍我们在端到端语音识别方面的探索。

展开查看详情

1 .【第12期】图像、NLP、语音技术在58的应用实践欢迎关注AICUG人工智能技术社区欢迎关注 58AILab 公众号欢迎关注58技术公众号（www.aicug.cn）

2 .【第3讲】58同城语音识别技术探索和实践分享嘉宾：周维-58同城AI Lab算法资深工程师

3 .个人简介周维，58同城AI Lab算法资深开发工程师，2018年5月加入 58，先后从事智能客服、语音机器人、写稿机器人和语音识别项目的算法工作，目前主要从事语音识别算法开发。2016 年硕士毕业于中国科学院大学，曾就职于菱歌科技，从事问答机器人和社媒舆情方面的算法工作。联系方式：zhouwei17@58.com

4 .目录 n 58同城场景下的语音识别 n Chain Model实践 n 端到端语音识别探索

5 .目录 n 58同城场景下的语音识别 n Chain Model实践 n 端到端语音识别探索

6 . 58同城生活服务平台 58平台发布帖子销售浏览帖子（房源、职位…）（电销、直销）客户房产中介 C端用户 B端商家企业二手车商客服搬家公司 …

7 . 呼叫中心销售客服 58同城呼叫中心简介 • 支撑数千名销售、客服人员工作 • 年通话数 1亿+，通话时长数百万小时 • 采用传统方式开展质检呼叫中心 • 纯人工抽检录音，覆盖率低 • 人工质检效率低，人均单日可听3小时录音

8 .C端用户与B端商家隐私通话、微聊二手房二手车租房微聊

9 . 58同城场景下的语音识别呼叫中心销售/客服客户情绪识别性别识别用户画像语音识别语音分析自然语言处理电话平台 C端用户 B端商家微聊平台 ASR NLU C端用户 B端商家对话管理用户 AI

10 . 58同城场景下的语音识别呼叫中心销售/客服客户语音识别电话平台 C端用户 B端商家微聊平台 ASR NLU C端用户 B端商家对话管理用户 AI

11 . 58同城场景下的语音识别音频转换 Segment1 VAD 录音文件预处理采样率转换 Segment2 mp3/wav… 说话人分离声道判断 Segment3 喂 NLP 后处理啊你好那个我… 解码服务请问租出去吗声学模型解码图

12 . 58同城场景下的语音识别语音识别的难点 p 复杂的业务场景 p 嘈杂多变的环境 p 全国各地的口音

13 . 58同城场景下的语音识别喂啊你好那个我… 请问租出去吗语音转文字标注数据词典挖掘声学模型语言模型

14 .目录 n 58同城场景下的语音识别 n Chain Model实践 n 端到端语音识别探索

16 . Chain Model实践基于HMM的语音识别流程 P(w1,w2,...,wN) = P (w1 ) · P (w2 |w1 ) · P (w3 |w1 , w2 ) · . . . · 分帧加窗 mfcc/fbank 声学模型 P (wN |w1 , . . . , wN-1 ) 语言模型解码器发音词典

17 .Chain Model实践

19 . Chain Model实践单音素解码 & 强制对齐 end ao3_s3 解码空间 ao3_s2 ao3_s1 好 h_s3 h_s2 h_s1 i3 _s3 i3 _s2 i3_s1 你 n_s3 n_s2 n_s1 start …… Frames

20 . Chain Model实践解码图 & Lattice WFSTàHCLG N-best路径 à Lattice

22 . Chain Model实践 DNN-HMM GMM-HMM 强制对齐单音素训练 Input: 每条音频声学特征训练数据强制对齐 Output: 对应的音素序列交叉熵损失函数CE GMM-HMM DNN训练 HMM迭代三音素训练

23 . Chain Model实践序列区分性训练-训练思想 Lattice-based 极大似然训练区分性训练区分性训练 s1 分子 s1 分子 s1 s2 s2 s2 t1 t2 t3 t4 t5 t1 t2 t3 t4 t5 s3 分母 s1 分母 s1 s4 t1 t2 t3 t4 t5 s2 s2 Lattice s3 s3 s1 s4 每条样本 s4 s2 t1 t2 t3 t4 t5 t1 t2 t3 t4 t5 t1 t2 t3 t4 t5 𝑃(𝐴) 𝑃(𝐴) 𝑙𝑜𝑔𝑃(𝐴) 𝑙𝑜𝑔 𝑙𝑜𝑔 ∑& #$% 𝑃(𝑃# ) 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 + 𝑃(𝐷)

24 . Chain Model实践序列区分性训练-损失函数交叉熵 CE 最大互信息 MMI sMBR Boosted MMI

25 . Chain Model实践序列区分性训练-Lattice based 标注文本强制对齐强制对齐分子 Lattice CE训练区分性训练 Lattice-based 训练数据 GMM-HMM DNN-HMM MMI HCLG 每条训练样本解码分母 Lattice

26 . Chain Model实践序列区分性训练-Lattice Free 强制对齐强制对齐分子 FST CE训练区分性训练 Lattice-free 训练数据 GMM-HMM DNN-HMM MMI 对齐 HCLG HCP Phone Phone 分母 FST 序列语言模型

27 . Chain Model实践 Chain Model 分子 FST 强制对齐强制对齐 GMM-HMM GMM-HMM Chain 训练数据 Chain 训练单音素训练三音素训练 Prepare Phone Ø 从头训练网络，不以CE作为起点；语言模型 Ø 跳帧，每3帧处理一次； Ø 分母使用4-gram的phone语言模型； HCP Ø 基于上文biphone做建模单元；构图 Ø 音素级建模和blank；

28 . Chain Model实践 Chain Model 分子 FST 强制对齐强制对齐 GMM-HMM GMM-HMM Chain 训练数据 Chain 训练单音素训练三音素训练 Prepare Phone Ø 从头训练网络，不以CE作为起点；语言模型 Ø 跳帧，每3帧处理一次； Ø 分母使用4-gram的phone语言模型； HCP Ø 基于上文biphone做建模单元；构图 Ø 音素级建模和blank；

29 . Chain Model实践 Chain Model 网络结构 LF-MMI 目标 CE 目标 Output1 Output2 TDNNs CNN TDNN Observation 跳帧：每3帧处理一次

12点赞

6收藏

12下载