视频文档

BERT在58搜索的实践

下载 4

AICUG人工智能社区

发布于

1002

人观看

#信息技术

嘉宾介绍：

熊威，58同城资深算法工程师，主要负责基础NLP技术迭代及文本搜索技术优化，15年硕士毕业于华中科技大学。

内容摘要：

传统基于Term-Match检索技术可以较好的解决Query-Doc字面匹配问题，而对于没有词命中时的Query-Doc语义匹配问题稍显捉襟见肘。本次分享将主要围绕我们在深度语义模型上的探索，通过模型结构、采样方式上的迭代调优提升效果，以及如何在线上搜索系统中进行合理的应用，更全面的解决Query-Doc语义匹配问题。

展开查看详情

1 . .c n c ug .a i ww w 社区智能工【第十九期】搜索推荐深度学习专题人 U G A I C

2 . .c n g c u BERT在58搜索的实践 .a i w ww 社区智能人工 U G A I C 分享嘉宾：熊威-算法资深工程师

3 . 目录 • .c n 58搜索简介 c ug • 深度语义模型探索 .a i ww • 语义模型在58搜索系统的应用 w 社区智能人工分享人：余意 U G A I C

4 . .c n c ug .a i ww w 58搜索简介社区智能人工 U G A I C

5 . 58搜索简介 • 离线构建索引 .c n C端 Query 查询 c ug • 在线检索用户理解 .a 召回 i - 召回：粗筛 ww w - 排序：精排社区排序索引 • 目标智能 -快人工 B端 Doc 文档索引分享人：余意 U G 商户理解构建 I C - 准：Query、用户 A

6 . 多段式检索 • 基于Term-Match的相关性 .c n c ug - BM25 倒排检索 .a i L1:千万-亿级相关性 ww w - 词频/词权/域权/覆盖率基础相关性排序 L2:万-百万级 - 位置/紧密度区社传统机器智能学习排序 L3:几千人工 ctr/cvr 深度学分享人：余意 U G 习排序 L4:几十-几百 A I C

7 . Term-Match相关 vs 语义相关 • .c n g 字面语义相关倒排检索 Term-Match i c u Query: A B C D 基础相关性排序 w .a Doc: H B C X Y D w w • 未命中词的语义相关社区智能 1）归一化: baoma-宝马，顺興斋-顺兴斋，2室1厅-两室一厅人工分享人：余意 G 2）同义：力工-装卸工，找体力活-招聘搬运工 U A I C 3）其他：司机、代驾、驾校教练 • 如何建模

8 . .c n c ug .a i ww w 深度语义模型的探索社区智能人工 U G A I C

9 . 深度匹配模型 • 表示模型(Representation-Based) .c n c ug .a i ww w 社区 • 智能工交互模型(Interaction-Based) 人 U G A I C

10 . 预训练语言模型 • Feature-Based .c n c ug • Fine-Tuning .a i ww w 社区智能人工 U G A I C

11 . 58的Query-Doc • Query：短文本 .c n c ug • Doc：多标签文本 .a i - 标题 ww w - 类目、地域社区 - 行业/职位智能 - 公司人工 U G C - 其他标签 -A I 详情描述

12 . 数据采样 • .c n g 样本数据：Query-Doc i c u - 日志采样： w .a 1）正采样：曝光并转化/点击 w w 2）负采样：曝光未点击社区 - 人工构造：智能 1）随机负采样工 G 人 2）U AI C 查询词/文档文本改写；

13 . BERT语义模型初探 • 模型结构：交互式BERT .c n g Legend - 两段文本拼接 Match Score .a icu Token w Learned Model ww - 交互充分 Emb Parameter Vector - 检索速度慢社区 Aggregator Attention/ Aggregation 智能… Out 1 Out 2 Out n O SEP Out 1 Out 2 … Out n 人工 U G BERT Encoder A I C w1 w2 … wn SEP w1 w2 … wn Query Doc

14 . 双塔式BERT • 模型结构：双塔式BERT Match Score .c n g Legend .a icu Token - 基于向量距离分类 • w Learned Model ww Parameter - 交互受限，应用灵活 Query Emb Doc Emb Vector - 向量映射部分可离线计算社区 Aggregator Aggregator Attention/ Aggregation 智能 Out 1… Out 2 Out n Out 1 Out 2 … Out n 人工 Query BERT U G Doc BERT A I C w1 w2 … wn w1 w2 … wn Query Doc

15 .双塔式BERT调优1 Cos + Cos + n MLP Cos + Pair c Sigmoid . Regression Sigmoid Softmax -1…1…-1...1 c u 1…1…1...1 g .a i Cos Concat Cos ww Cos(+)-Cos(-) w Q D Q D 社区Q D D+ Q D- 能 Emb Emb Emb Emb Emb Emb Emb Emb Emb ① 工智 ② ③ ④ G 人 Model AUC I CU 交互式BERT 0.7310 A Cos+Sigmoid 0.6431 MLP 0.6483 BERT-DSSM Cos+Regression 0.6703 Cos+Pair 0.6675

16 .双塔式BERT调优2 Soft Soft Cos + n Cos + Pair c Regression . Target Target 0.5…1…1.5...1 SoftMax c u g -1…-0.5…0.5...1 .a i Cos(+)-Cos(-) ww Cos w D+ Q D- 社区交互式BERT Q D 能 Emb Emb Emb Emb Emb 智 Student Teacher Student 人工 Model AUC U G C 交互式BERT 0.7310 A I Cos+Regression Cos+Regression+Soft 0.6703 0.6973 BERT-DSSM Cos+Pair 0.6675 Cos+Pair+Soft 0.6956

17 . 半(弱)交互式BERT • Poly-Encoders .c n Query Emb • c u g Match Score - 双塔式交互不足 .a i w Attention - 交互式速度慢 w Legend … w 区 Emb 1 Emb m Doc Emb Token 能 Code 1 Attention … Code m社 Attention Learned Model Parameter 智 Aggregator Vector 工 … … G人 Attention/ Out 1 Out 2 Out n Out 1 Out 2 Out n Aggregation I CU A Query BERT Doc BERT w1 w2 … wn w1 w2 … wn Query Doc

18 . 半交互式BERT n Match Score • Multi-Fields g .c • i c u Field1 Emb .a - 匹配层交互 ww Attention - Embedding层交互 w Query Emb 社区 Field1 Emb Field1 Emb Field1 Emb 智能 Aggregator Aggregator Aggregator Aggregator 人工 G Out 1 Out 2 Out n Out 1 Out n Out 1 Out n Out 1 Out n I CU A Query BERT Field1 BERT Field2 BERT … Fieldn BERT w1 w2 … wn w1 … wn w1 … wn w1 … wn Query Doc

19 .半交互式BERT .c n Model AUC c ug 交互式BERT .a i 0.7310 Cos+Regression ww 0.6703 w Cos+Regression+soft 0.6973 双塔式BERT 社区 Model Cos+Pair 0.6675 AUC 智能 Cos+Pair+soft 交互式BERT 0.6956 0.7310 工 PolyEncoders 4 0.6987 G 人 PolyEncoders 64 0.7145 U 半交互式BERT C Multi-Field+Cos交互 0.6472 A I Multi-Field+Emb交互 0.6878

20 .语义模型小结 n 语义模型效果检索速度单次计算量其他 g .c u 交互式最佳慢 N*t(bert) 几十~百，不支持faiss 双塔式有差距最佳 N*t(cos) .a i c 万~几十万，支持faiss ww w 半交互式接近较快 N*(t(cos)+ 不支持faiss 区交互式 t(attention)) 能社 L1:千万~亿级智倒排索引(词匹配) 人工基础相关性排序 U G L2:万~百万级 A I C 机器学习 L3:几千排序深度学 L4:几十-几百习排序

21 . .c n c ug .a i ww w 语义模型在58搜索的应用社区智能人工 U G AIC

22 . 语义模型在L3排序中的应用 • 训练方式 .c n - 联合训练 c ug .a XGBi - 两段式训练 ww • w 区离线实验 XGB模型AUC 能社单语义相似度特征 Base XGB 工智 XGB(+语义) 收益 Query/Doc BERT 结构用统人 0.6081 0.6503 0.6680 +177BP 户计 G 化 U … 偏特 C 特 • 线上效果 I Query Doc 好征 A 征 CTR:+2.77% CVR:+6.23%

23 . 语义模型在L4排序中的应用 • DIEN .c n c ug .a i ww w 社区智能人工模型 U AUC(CTR) G AUC(CVR) DIEN A I C 0.6631 0.7263 DIEN+语义 0.6880 0.7406 Embedding 收益 +249BP +143BP

24 . 语义模型在召回中的应用 .c n • 语义排序的问题 c u g i .a L1:千万~亿级 w - 受限上层的召回策略 w 倒排索引(词匹配) - 基于词的布尔检索过于严格 w 社区基础相关性排序 L2:万~百万级 • 语义召回-最近邻智能机器学习人工排序 L3:几千 G - L1：改写、去词深度学 I CU 习排序 L4:几十~几百 A - L2：基础相关性+语义相似度

25 . 语义模型在召回中的应用 • 语义召回是否能替代布尔召回 .c n c ug 检索策略有结果率无结果率 .a i Term-Match 58% 42% ww 语义匹配 98% 2% w 社区能检索策略满意率一般满意率不满意率（包含无结果） Term-Match 52% 工智6% 42% 人语义匹配 59% 24% 17% U G • I C 语义召回应用场景 A - Term-Match策略少无结果下的补充召回

26 . 语义模型在召回中的应用 .c n • 效果体验 c ug .a i ww w 社区智能人工 U G A I C

27 . 语义模型在召回中的应用 .c n • 效果体验 c ug .a i ww w 社区智能人工 U G A I C

28 . 语义模型在召回中的应用 • .c n g 效果体验 i c u • 上线效果 w .a w w - cvr：+8.27% 社区智能人工 U G A I C

29 . 后续工作 • .c n 半交互式模型应用推进 c ug • L4深度学习排序中语义的应用 .a i ww • 语义召回应用深化 w • 语义匹配模型持续优化社区智能人工 U G A I C

1点赞

0收藏

4下载