- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
BERT在58搜索的实践
嘉宾介绍:
熊威,58同城资深算法工程师,主要负责基础NLP技术迭代及文本搜索技术优化,15年硕士毕业于华中科技大学。
内容摘要:
传统基于Term-Match检索技术可以较好的解决Query-Doc字面匹配问题,而对于没有词命中时的Query-Doc语义匹配问题稍显捉襟见肘。本次分享将主要围绕我们在深度语义模型上的探索,通过模型结构、采样方式上的迭代调优提升效果,以及如何在线上搜索系统中进行合理的应用,更全面的解决Query-Doc语义匹配问题。
展开查看详情
1 . .c n c ug .a i ww w 社 区 智能 工 【第十九期】搜索推荐深度学习专题 人 U G A I C
2 . .c n g c u BERT在58搜索的实践 .a i w ww 社 区 智能 人工 U G A I C 分享嘉宾:熊威-算法资深工程师
3 . 目录 • .c n 58搜索简介 c ug • 深度语义模型探索 .a i ww • 语义模型在58搜索系统的应用 w 社 区 智能 人工 分享人:余意 U G A I C
4 . .c n c ug .a i ww w 58搜索简介 社 区 智能 人工 U G A I C
5 . 58搜索简介 • 离线构建索引 .c n C端 Query 查询 c ug • 在线检索 用户 理解 .a 召回 i - 召回:粗筛 ww w - 排序:精排 社 区 排序 索引 • 目标 智能 -快 人工 B端 Doc 文档 索引 分享人:余意 U G 商户 理解 构建 I C - 准:Query、用户 A
6 . 多段式检索 • 基于Term-Match的相关性 .c n c ug - BM25 倒排检索 .a i L1:千万-亿级 相关性 ww w - 词频/词权/域权/覆盖率 基础相关性排序 L2:万-百万级 - 位置/紧密度 区 社 传统机器 智能 学习排序 L3:几千 人工 ctr/cvr 深度学 分享人:余意 U G 习排序 L4:几十-几百 A I C
7 . Term-Match相关 vs 语义相关 • .c n g 字面语义相关 倒排检索 Term-Match i c u Query: A B C D 基础相关性排序 w .a Doc: H B C X Y D w w • 未命中词的语义相关 社 区 智能 1)归一化: baoma-宝马,顺興斋-顺兴斋,2室1厅-两室一厅 人工 分享人:余意 G 2)同义: 力工-装卸工,找体力活-招聘搬运工 U A I C 3)其他:司机、代驾、驾校教练 • 如何建模
8 . .c n c ug .a i ww w 深度语义模型的探索 社 区 智能 人工 U G A I C
9 . 深度匹配模型 • 表示模型(Representation-Based) .c n c ug .a i ww w 社 区 • 智 能 工 交互模型(Interaction-Based) 人 U G A I C
10 . 预训练语言模型 • Feature-Based .c n c ug • Fine-Tuning .a i ww w 社 区 智能 人工 U G A I C
11 . 58的Query-Doc • Query:短文本 .c n c ug • Doc:多标签文本 .a i - 标题 ww w - 类目、地域 社 区 - 行业/职位 智能 - 公司 人工 U G C - 其他标签 -A I 详情描述
12 . 数据采样 • .c n g 样本数据:Query-Doc i c u - 日志采样: w .a 1)正采样:曝光并转化/点击 w w 2)负采样:曝光未点击 社 区 - 人工构造: 智 能 1) 随机负采样工 G 人 2)U AI C 查询词/文档文本改写;
13 . BERT语义模型初探 • 模型结构:交互式BERT .c n g Legend - 两段文本拼接 Match Score .a icu Token w Learned Model ww - 交互充分 Emb Parameter Vector - 检索速度慢 社 区 Aggregator Attention/ Aggregation 智能… Out 1 Out 2 Out n O SEP Out 1 Out 2 … Out n 人工 U G BERT Encoder A I C w1 w2 … wn SEP w1 w2 … wn Query Doc
14 . 双塔式BERT • 模型结构:双塔式BERT Match Score .c n g Legend .a icu Token - 基于向量距离分类 • w Learned Model ww Parameter - 交互受限,应用灵活 Query Emb Doc Emb Vector - 向量映射部分可离线计算 社 区 Aggregator Aggregator Attention/ Aggregation 智能 Out 1… Out 2 Out n Out 1 Out 2 … Out n 人工 Query BERT U G Doc BERT A I C w1 w2 … wn w1 w2 … wn Query Doc
15 .双塔式BERT调优1 Cos + Cos + n MLP Cos + Pair c Sigmoid . Regression Sigmoid Softmax -1…1…-1...1 c u 1…1…1...1 g .a i Cos Concat Cos ww Cos(+)-Cos(-) w Q D Q D 社 区Q D D+ Q D- 能 Emb Emb Emb Emb Emb Emb Emb Emb Emb ① 工 智 ② ③ ④ G 人 Model AUC I CU 交互式BERT 0.7310 A Cos+Sigmoid 0.6431 MLP 0.6483 BERT-DSSM Cos+Regression 0.6703 Cos+Pair 0.6675
16 .双塔式BERT调优2 Soft Soft Cos + n Cos + Pair c Regression . Target Target 0.5…1…1.5...1 SoftMax c u g -1…-0.5…0.5...1 .a i Cos(+)-Cos(-) ww Cos w D+ Q D- 社 区 交互式BERT Q D 能 Emb Emb Emb Emb Emb 智 Student Teacher Student 人工 Model AUC U G C 交互式BERT 0.7310 A I Cos+Regression Cos+Regression+Soft 0.6703 0.6973 BERT-DSSM Cos+Pair 0.6675 Cos+Pair+Soft 0.6956
17 . 半(弱)交互式BERT • Poly-Encoders .c n Query Emb • c u g Match Score - 双塔式交互不足 .a i w Attention - 交互式速度慢 w Legend … w 区 Emb 1 Emb m Doc Emb Token 能 Code 1 Attention … Code m社 Attention Learned Model Parameter 智 Aggregator Vector 工 … … G人 Attention/ Out 1 Out 2 Out n Out 1 Out 2 Out n Aggregation I CU A Query BERT Doc BERT w1 w2 … wn w1 w2 … wn Query Doc
18 . 半交互式BERT n Match Score • Multi-Fields g .c • i c u Field1 Emb .a - 匹配层交互 ww Attention - Embedding层交互 w Query Emb 社 区 Field1 Emb Field1 Emb Field1 Emb 智能 Aggregator Aggregator Aggregator Aggregator 人工 G Out 1 Out 2 Out n Out 1 Out n Out 1 Out n Out 1 Out n I CU A Query BERT Field1 BERT Field2 BERT … Fieldn BERT w1 w2 … wn w1 … wn w1 … wn w1 … wn Query Doc
19 .半交互式BERT .c n Model AUC c ug 交互式BERT .a i 0.7310 Cos+Regression ww 0.6703 w Cos+Regression+soft 0.6973 双塔式BERT 社 区 Model Cos+Pair 0.6675 AUC 智能 Cos+Pair+soft 交互式BERT 0.6956 0.7310 工 PolyEncoders 4 0.6987 G 人 PolyEncoders 64 0.7145 U 半交互式BERT C Multi-Field+Cos交互 0.6472 A I Multi-Field+Emb交互 0.6878
20 .语义模型小结 n 语义模型 效果 检索速度 单次计算量 其他 g .c u 交互式 最佳 慢 N*t(bert) 几十~百,不支持faiss 双塔式 有差距 最佳 N*t(cos) .a i c 万~几十万,支持faiss ww w 半交互式 接近 较快 N*(t(cos)+ 不支持faiss 区 交互式 t(attention)) 能 社 L1:千万~亿级 智 倒排索引(词匹配) 人工 基础相关性排序 U G L2:万~百万级 A I C 机器学习 L3:几千 排序 深度学 L4:几十-几百 习排序
21 . .c n c ug .a i ww w 语义模型在58搜索的应用 社 区 智能 人工 U G AIC
22 . 语义模型在L3排序中的应用 • 训练方式 .c n - 联合训练 c ug .a XGBi - 两段式训练 ww • w 区 离线实验 XGB模型AUC 能 社 单语义相似度特征 Base XGB 工 智 XGB(+语义) 收益 Query/Doc BERT 结 构 用 统 人 0.6081 0.6503 0.6680 +177BP 户 计 G 化 U … 偏 特 C 特 • 线上效果 I Query Doc 好 征 A 征 CTR:+2.77% CVR:+6.23%
23 . 语义模型在L4排序中的应用 • DIEN .c n c ug .a i ww w 社 区 智能 人工 模型 U AUC(CTR) G AUC(CVR) DIEN A I C 0.6631 0.7263 DIEN+语义 0.6880 0.7406 Embedding 收益 +249BP +143BP
24 . 语义模型在召回中的应用 .c n • 语义排序的问题 c u g i .a L1:千万~亿级 w - 受限上层的召回策略 w 倒排索引(词匹配) - 基于词的布尔检索过于严格 w 社 区 基础相关性排序 L2:万~百万级 • 语义召回-最近邻 智 能 机器学习 人工 排序 L3:几千 G - L1:改写、去词 深度学 I CU 习排序 L4:几十~几百 A - L2:基础相关性+语义相似度
25 . 语义模型在召回中的应用 • 语义召回是否能替代布尔召回 .c n c ug 检索策略 有结果率 无结果率 .a i Term-Match 58% 42% ww 语义匹配 98% 2% w 社 区 能 检索策略 满意率 一般满意率 不满意率(包含无结果) Term-Match 52% 工 智6% 42% 人 语义匹配 59% 24% 17% U G • I C 语义召回应用场景 A - Term-Match策略少无结果下的补充召回
26 . 语义模型在召回中的应用 .c n • 效果体验 c ug .a i ww w 社 区 智能 人工 U G A I C
27 . 语义模型在召回中的应用 .c n • 效果体验 c ug .a i ww w 社 区 智能 人工 U G A I C
28 . 语义模型在召回中的应用 • .c n g 效果体验 i c u • 上线效果 w .a w w - cvr:+8.27% 社 区 智能 人工 U G A I C
29 . 后续工作 • .c n 半交互式模型应用推进 c ug • L4深度学习排序中语义的应用 .a i ww • 语义召回应用深化 w • 语义匹配模型持续优化 社 区 智能 人工 U G A I C