- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
向量化召回上的深度学习实践
嘉宾介绍:
彭小钰,58同城高级算法工程师,负责58APP首页猜你喜欢推荐位向量化召回通道优化。
内容摘要:
向量化召回通过学习用户与物品低维向量化表征,将召回建模成向量空间内的近邻搜索问题,有效提升了召回的泛化能力与多样性,是推荐引擎的核心召回通道。本次议题主要介绍深度学习在向量化召回上的应用与实践,实现了从W2V到双塔模型的迭代升级。
展开查看详情
1 . .c n c ug .a i ww w 社 区 智能 工 【第十九期】搜索推荐深度学习专题 人 U G A I C 沙龙直播
2 . .c n g c u 向量化召回上的深度学习实践 .a i w ww 社 区 智能 人工 U G I C A 分享嘉宾:彭小钰-高级算法工程师
3 .目录 .c n 背景 c ug .a i ww w 区 首页推荐Word2Vec召回实践 社 智 能 人工 双塔模型召回在首页推荐的落地及优化 分享人:余意 U G AIC 总结与展望
4 .背景 .c n c ug i ⚫ 多业务融合 w .a w w 区 社 ⚫ 数据体量大 智能 人工 分享人:余意 U G A I C
5 . 背景 多通道召回 .c n g c u . a i 兴趣标签召回 协同过滤召回 再营销召回 w w LBS召回 搜索关键词召回 ⚫ 兴趣 ⚫ 基于User ⚫ 点击历史 w ⚫ 用户定位 ⚫ 搜索行为 ⚫ 扩展兴趣 ⚫ 基于Item 社 区 智能 人工 U G A I C 某一种召回很 难兼顾相关性 和多样性
6 .首页推荐Word2Vec向量实践 .c n c ug .a i ww 向量训练 w 社 区 智能 人工 在线预测 分享人:余意 U G A I C
7 . Word2Vec - 向量训练 Word2Vec训练方式 .c n c ug .a i ww w 社 区 智能 人工 分享人:余意 U G A I C
8 . Word2Vec - 向量训练 .c n c u g .a i ww w ItemID 社 区 能 聚合 过滤 智 HDFS 日志 点击行为 UserID ItemID1 ItemID2 ItemID3 行为序列 人工 时间先后顺序 分享人:余意 U G A I C 时间戳
9 . Word2Vec - 向量训练 .c n c u g . a i Session切分 : 不同城市 || 不同业务 w ww 行为序列1 ItemID1 ItemID2 ItemID3 ItemID4 ItemID5 有非同城的帖子 社 区 有非同业务的帖子 智能 工 行为序列1 ItemID1 ItemID2 ItemID3 G 人 问题 I CU 行为序列2 ItemID4 ItemID5 A
10 . Word2Vec - 向量训练 负采样优化 全局采样 -> 同城采样 .c n c u g i 采样列表 .a Item1 Item2 Item3 Item4 Item5 Item6 Item7 Item8 (cum_table ) p = 词频 / 词频总和 ww w Item1 Item2 ItemK Item(K+1 社 Item(K+2区 Item(K+J) Item(K+J+1) Item(K+J+2 Item(K+J+N 能 ) ) ) ) 城市1所有帖子(1:K+1) 工 智 城市J所有帖子(K+2:K+J) 城市N所有帖子(K+J+1:K+J+N) G 人 cityStartIndexList U 记录城市在采样列表的起始下标列表 A I C cityEndIndexList 记录城市在采样列表的结束下标列表 localList 记录Item的地域ID列表 cateList 记录Item的业务ID列表
11 . Word2Vec - 向量训练 负采样优化 全局采样 -> 同城采样 .c n c u g 行为序列1 Item1 Item2 Item3 Item4 Item5 .a Item6 i ww 正样本 负样本 w cityStartIndexList 城市采样列表的起始位置 Item3 Item1 社 区 Item3 CityID cityEndIndexList 能 城市采样列表的结束位置 工 Item3 智 Item2 采样区间 Item(K+2 Item(K+J) Item(K+N) 人 ) windows = 5 negative = 5 U G Item3 Item4 Random A I C Item3 Item5 选中负样本 ItemF ItemF != Item3 ItemF不在当前行为序列中 负样本和中心词业务不同 && 地域不同
12 .Word2Vec - 向量训练 .c n c u g .a i 优化前 ww 优化后 数据数据条数 1100万 w 1100万 Infoid个数 4100万 社 区 4100万 能 训练方式 SkipGram + NagtiveSampling SkipGram + NagtiveSampling 训练时长 工 智 4个半小时 9个小时 负采样个数 G 人 4个 分享人:余意 4个 负采样范围 I CU 全部帖子库 同城库 A 向量维度 64 64
13 .Word2Vec - 向量训练 .c n c ug .a i ww w 社 区 智能 人工 分享人:余意 U G A I C
14 .Word2Vec - 在线预测 Request .c n 主体服务 c u g .a i 召回服务 ww w 兴趣标签 协同过滤 LBS召回 召回 召回 热门召回 社 区 搜索关键 向量化 能 词召回 召回 用户点击序列 Redis 智 推荐服务 人工 Faiss U G 向量是否 向量求和 Top50 I C 存在 平均 相似帖子 A 向量检索 Load 点击行为 向量训练 向量模型 序列 Word2Vec
15 .Word2Vec - 在线预测 .c n c u g .a i w IndexIVFlat IndexIVFlat IndexIVFlat Faiss集群 w w IndexIVFlat 社 区 IndexIVFlat IndexIVFlat 智 能 索引业务ID 人工 向量个数 nList nProbe Top50检索耗时 U G I C IndexIVFlat 4200万 AIndexIVFlat 4200万 1024 100 1 35ms 2 10ms
16 .Word2Vec - 在线预测 .c n 转化率 c u g i 0.76% 0.74% w .a w 0.72% 0.70% w 0.68% 社 区 能 0.66% 智 0.64% 0.62% 人工 G 0.60% I CU 0.58% A 2020-1121 2020-1122 2020-1123 2020-1124 2020-1125 2020-1126 Word2Vec+兴趣标签 兴趣标签
17 .Word2Vec - 在线预测 .c n c ug .a i 用户向量表征受限 ww w 区 没有结合场景业务 社 智能 工 G人 问题 I CU A
18 .双塔模型在首页推荐的落地流程及优化 .c n c ug .a i ww 模型架构 w 社 区 模型评测 智能 人工 分享人:余意 U G在线召回 A I C
19 .双塔模型 - 模型架构 .c n c ug .a i ww w 社 区 智能 人工 分享人:余意 U G A I C
20 . 双塔模型 - 模型架构 输入层 - 预训练Embedding .c n c ug 预训练 ItemIDEmbedding .a i 7天数据帖子数5000万 ww w User塔输入 Word2Vec 维度降低影响向量效果 社 区 ItemID Embedding 问题 训练 智能Item塔输入 LocalID 模型 工 数据 TFRecord 输入 人 CateID U G A I C Lable
21 . 双塔模型 - 模型架构 n t-2天向量 输入层 - 向量增量 g .c itemid1 [向量] t-5天向量 t-1天向量 i c u .a itemid2 [向量] w itemid7 [向量] w itemid7 [向量] itemid1 [向量] itemid13 [向量] w t-3天向量 itemid8 [向量] 社 区 itemid2 [向量] itemid3 [向量] 能 t-6天向量 智 itemid9 [向量] itemid3 [向量] itemid4 [向量] itemid9 [向量] 人工 itemid10 [向量] itemid4 [向量] 分享人:余意 G itemid11 [向量] I CU itemid11 [向量] itemid5 [向量] t-4天向量 A t-7天向量 itemid12 [向量] itemid12 [向量] itemid6 [向量] itemid5 [向量] itemid6 [向量] itemid14 [向量] 4100万增加到4700万左右
22 . 双塔模型 - 模型架构 输入层 - 负样本采样 .c n c ug 1. Easy负样本 .a i w 在Batch内随机负采样 2.Hard负样本 w w 社 区 同城内选取和用户当前点击帖子的地域ID和业务ID都不相同的帖 子作为负样本。 智能 人工 样本组成 AUC U G C 正样本、随机负采样、规则负采样 0.533 A I 正样本、规则负采样*4、随机负采样*3 0.532 正样本、随机负采样*7 0.557 正样本、随机负采样*4 0.558
23 . 双塔模型 - 模型架构 表示层 - User塔加入用户兴趣标签 .c n c ug 业务线 兴趣标签字段 .a i 二手房 ww 业务ID+地域+价格+户型+面积 二手车 w 业务ID+品牌+价格 整租房 社 区 地域+房价+户型 能 二手手机 业务ID+机型+价格 合租房 工 短租房智 地域+价格+是否中介 业务ID+位置+价格 G 人 商铺租售 地域+分类+供求+行业+业务ID I CU 货车 业务ID+价格+车系 A 宠物猫/宠物狗 全职招聘 价格+类别 类目+薪资+地域 兼职招聘 类目+地域
24 . 双塔模型 - 模型架构 表示层 - User塔加入用户兴趣 .c n g SumPooling i c u .a weight1 weight2 weight30 w X X X Activation Activation w w Activation 区 Unit Unit Unit 能 社 SumPooling 工 智 G 人 分享人:余意 I CU A 帖子Id 类目Id 地域Id Item1 Item2 Item30 兴趣1 兴趣2 兴趣10 行为序列 用户兴趣
25 . 双塔模型 - 模型架构 表示层 - User塔加入特征 .c n 特征描述 c ug 特征业务ID 设备为安卓|IOS .a i 离散型 离散后的用户最新兴趣对应的点击次数 ww 离散型 上一次点击类目是否是最偏好的类目 w 离散型 社 区 用户对上一次点击类目的偏好程度 连续型 智能 用户最感兴趣的类目的偏好程度 连续型 人工 上一次点击地域是否是最偏好的地域 离散型 分享人:余意 G 用户对上一次点击地域的偏好程度 连续型 I CU 用户最感兴趣的地域的偏好程度 连续型 A 上一次点击类目-地域组合是否是最偏好的类目-地域组合 用户对上一次点击类目-地域组合的偏好程度 离散型 连续型 用户对点击次数最多的类目偏好程度 连续型 用户对点击次数最多的地域偏好程度 连续型
26 . 双塔模型 - 模型架构 匹配层 .c n c ug [P+,P-,P-,P-,P-] .a i ww w 社 区 智能 Loss函数 人工 分享人:余意 U G A I C
27 . 双塔模型 - 模型评测 覆盖率和平均位置 .c n c ug .a i 覆盖率 = 召回结果包含用户下一次点击帖子样本数 / 点击数据总条数 ww w 社 区 智能 人工 分享人:余意 U G A I C
28 .双塔模型 - 模型评测 .c n c u g AUC 覆盖率 .a i 平均位置 0.561 20.00% ww 22 w 0.56 10.00% 区 20 0.559 0.558 AUC 能 社 0.00% 覆盖率 18 智 平均位置 工 原始双塔模型 原始双塔模型 分享人:余意 人 原始双塔模型 加入用户兴趣 G 加入用户兴趣 加入用户兴趣 U 加入用户特征 加入用户特征 I C 加入用户特征 A
29 . 双塔模型 - 在线召回 User塔向量化召回 .c n c ug .a i ww w 社 区 智能 人工 U G A I C