AI技术如何打造智能语音质检系统

播放视频

视频文档

AI技术如何打造智能语音质检系统

下载 4

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
视频嵌入链接文档嵌入链接
<iframe src="https://www.slidestalk.com/AICUG/AI_in_Intellegent_Voice_Inspection?embed&video" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

AICUG人工智能社区

发布于

5年前

1557

人观看

#信息技术

展开查看详情

1 .【第12期】图像、NLP、语音技术在58的应用实践欢迎关注AICUG人工智能技术社区欢迎关注 58AILab 公众号欢迎关注58技术公众号（www.aicug.cn）

2 .【第2讲】AI技术如何打造智能语音质检系统分享嘉宾：陈璐-58同城AI Lab算法高级工程师

3 . 个人简介 • 教育背景 • 2013.09 ~ 2016.04，硕士就读于北京邮电大学 • 2009.09 ~ 2013.07，本科就读于哈尔滨工业大学 • 工作经历 • 2018.09 ~ 至今，入职58同城，参与智能客服、语音质检和语音机器人的算法工作 • 2016.07 ~ 2018.09，于京东商城，负责推荐后台研发，NLP算法研发工作联系方式：chenlu17@58.com

4 . CONTENTS 01 02 03 04 背景介绍总体架构核心功能业务案例

5 . 背景介绍客户 • 语音质检是什么销 VIP 售 • 传统语音质检通常是指质检员听取一定比例的电话录用户音进行人工质检，检测坐席在通话过程中是否有违规客普通服或非标准话术的行为用户呼叫中心 • 58同城呼叫中心简介 • 支撑数千名销售、客服人员工作 • 年通话数1亿+，通话时长数百万小时 • 采用传统方式开展质检 • 纯人工抽检录音，覆盖率低 • 人工质检效率低，人均单日可听3小时录音

6 . 智能语音质检系统优势语音转写成文字实时采集 AI质检模型构建语音数据自然传统人工质检智能语音质检语言抽检不足1%，处理全量机器质检覆盖率低机器数据学习挖掘实时反馈，升级机器质检质检标准不一致处理 + VS 人工复检数据可视化风险信息难发现风险精准识别反馈及管理质检效率低，人少量人工复检，力成本高且质检效率高全量机器问题人工工作模式: 质检复检录音录音 Web平台：人工复检、数据分析…

7 . 总体架构接入层语音数据接入 AI分析结果反馈人工复核结果收集（消息总线）编辑运营层逻辑层 Web 质检平台说话人数据标注效果评估数据分析语义标签语音评分角色识别基础服务层自然语言理解语音分离 + 语音识别分词词性标注 … 词向量自研引擎供应商1 供应商2

8 . 语音分离 + 语音识别 • 语音分离 • 分离单声道录音 • 评价指标 • DER（Diarization Error Rate） • 语音识别 • 将语音转写成文本 • 评价指标说话人角色识别：说话人a -> 坐席 ? • CER（Character Error Rate）说话人b -> 用户 ?

9 . 单声道语音分离 • DER（分离错误率） • 识别错误的音频的时长总和 / 总时长错误包括以下三种： 1. false（静音识别为人声） 2. miss（人声识别为静音） 3. confusion（说话人识别错误）

10 . 单声道语音分离整体流程 VAD 断句 dim= 音频转向量 512 流程 1.VAD断句(webrtcvad) 向量聚类 2.音频转向量(ResNet-34) 3.向量聚类(kmeans) speakerA speakerB speakerA speakerB

11 . VAD调优从帧移和片段合并两个方面调整VAD 帧移 30ms ...... 10ms ...... speakerA speakerB speakerA speakerA speakerA speakerB 片段合并 0.2 s 0.1 s speakerA speakerB speakerA speakerB

12 . 音频转向量 ResNet-34 网络结构 softmax 音频向量 ResNet-34 频谱采样向量 speakerA

13 . 角色识别说话人a 坐席客户不好意思啊 a 唉哥，打扰了噢我现在手上有点事啊 a 我58同城的国顺！不好意思说话人b 啊 b 唉哥，打噢我现在手上扰了有点事啊 b 回头我联系您。我58同城的国顺！ a 回头我联系您。角色识别整体流程

14 . 角色识别主要模型性别识别模型单句角色纠正模型 Label 坐席 Softmax Full Connected Layer V0 V1 V2 … VT VS BERT PreTrainModel 2 Layer CLS W1 W2 … WT SEP 模型：您还在招人吗？ VGGish + Bi-lstm + Attention

15 . 质检算法模块-单句标签 TextCNN模型（初版）

16 . 质检算法模块-单句标签使用业务数据预训练了SPTM（Simple Pre-trained Model）模型 SPTM模(2019.04诞生) Label 客户表示将去投诉 Softmax Full Connected Layer • 一层SPTM推理耗时12ms • 评测效果和BERT-Base持平 V0 V1 V2 … VT-1 VT Simple Pre-trained Model 1layer W0 W1 W2 … WT-1 WT 我真的要去投诉了，一直打电话你们好意思吗？

17 . 轻量级预训练语言模型SPTM SPTM开源项目地址：https://github.com/wuba/qa_match 19年4月诞生，在18年10月底诞生的BERT基础上改动 ①尝试替换Trm 为Bi-LSTM ②去掉NSP BERT(2018.10) SPTM(2019.04)

18 .轻量级预训练语言模型SPTM • 将Tr a ns f or m e r 替换为B i- LS T M ② 通过预测掩码的token达到 Pretrain LM ③ 残差学习 ① 随机掩码15% 的token 优点预训练 / 推理速度快缺点表达能力略有下降

19 . 质检算法模块-单句标签使用业务数据预训练了ALBERT ALBERT模型(2019.09诞生) Label 客户表示将去投诉 ALBERT相对于BERT的优化： Softmax 1. 词嵌入向量参数的因式分解 Full Connected Layer 2. 跨层参数共享 3. 段落连续性任务 V0 V1 V2 … VT VS 模型参数量减少，训练速度更快 ALBERT PreTrainModel 2 Layer CLS W1 W2 … WT SEP 我真的要去投诉了，一直打电话你们好意思吗？

20 . 质检算法模块-全局标签 • 质检标签挖掘 – 结合上下文信息

21 . 质检算法模块 • 质检标签挖掘 – 规则挖掘 NGram规则挖掘新词发现算法：发现常用 • 发现对正例敏感的规则的词语或表述将语料进行分词利用点互信息筛选出备用词通过左右熵输出最终的新词

22 . Web质检系统 • 机器质检 + 人工复检；辅助人工高效复检

23 . 效果数据 • 抽样标注评测质检标签准确率 92% • 呼叫中心全量语音接入质检，其中客服质检节省约 1000+ 质检人力

24 . 业务案例-销售高危录音质检 • 判断在销售和客户沟通过程中是否发生高风险行为 • 质检标签标签类型标签客户表示被骚扰高危标签客户表示将去投诉发生辱骂客户快速挂断（听到58同城）客户表示不需要普通标签客户表示不要再打电话客户表示电话过多工作作假-空白通时

25 . 业务案例-销售高危录音质检 • 针对高危录音的管理动作 CRM（销售主管管理）高危标签录音电话进入沉寂库客户表示被骚扰人工复检客户表示将去投诉电话保护180天发生辱骂 ……

26 . 呼叫中心风控防骚扰 • 基于历史语音数据预测高危电话，减少客户投诉不需要不需要快速挂断辱骂高危用户特征高危率 CRM自动客户4次表示处理商机电话 30% 不需要正常正常正常不需要电话进入沉客户6次表示 60% 寂库不需要电话保护180 不需要电话骚扰投诉正常客户2次表示天电话过多，1 80% 次投诉 …… … …… 不要再打电话电话过多正常投诉高危作用：有效减少高风险电话拨打，降低客户骚扰，减少投诉，提高服务质量

27 .业务案例-客服质检客服场景1 客服场景2：通话不能出现以下标签通话需要包含以下标签标签标签负责人确认没有开场白核对套餐较少礼貌语安全提示没有道别语号码保护推诿推广规则不清楚规则新手引导过渡承诺客服热线工作作假智能客服 …… 探需

28 .AI Lab开源项目推介：qa_match “qa_match是一款基于深度学习的问答匹配工具，支持一层和两层结构知识库问答。qa_match通过意图匹配模型支持一层结构知识库问答，通过融合领域分类模型和意图匹配模型的结果支持两层结构知识库问答。 qa_match同时支持无监督预训练功能，通过轻量级预训练语言模型（SPTM，Simple Pre-trained Model）可以提升基于知识库问答等下游任务的效果。” • 开源地址 • https://github.com/wuba/qa_match

29 . AI Lab开源项目推介：dl_inference “dl_inference 是58同城开源的通用深度学习推理服务，可在生产环境中快速上线由TensorFlow、PyTorch和Caffe框架训练出的深度学习模型，提供GPU和CPU两种部署方式，并且实现了模型多节点部署时的负载均衡策略，支持线上海量推理请求，dl_inference支撑了58同城各AI场景下日均超过10亿次的线上推理请求。” • 开源地址 • https://github.com/wuba/dl_inference

7点赞

2收藏

4下载