向量化召回上的深度学习实践

播放视频

视频文档

向量化召回上的深度学习实践

下载 7

AICUG人工智能社区

发布于

1279

人观看

#信息技术

嘉宾介绍：

彭小钰，58同城高级算法工程师，负责58APP首页猜你喜欢推荐位向量化召回通道优化。

内容摘要：

向量化召回通过学习用户与物品低维向量化表征，将召回建模成向量空间内的近邻搜索问题，有效提升了召回的泛化能力与多样性，是推荐引擎的核心召回通道。本次议题主要介绍深度学习在向量化召回上的应用与实践，实现了从W2V到双塔模型的迭代升级。

展开查看详情

1 . .c n c ug .a i ww w 社区智能工【第十九期】搜索推荐深度学习专题人 U G A I C 沙龙直播

2 . .c n g c u 向量化召回上的深度学习实践 .a i w ww 社区智能人工 U G I C A 分享嘉宾：彭小钰-高级算法工程师

3 .目录 .c n 背景 c ug .a i ww w 区首页推荐Word2Vec召回实践社智能人工双塔模型召回在首页推荐的落地及优化分享人：余意 U G AIC 总结与展望

4 .背景 .c n c ug i ⚫ 多业务融合 w .a w w 区社 ⚫ 数据体量大智能人工分享人：余意 U G A I C

5 . 背景多通道召回 .c n g c u . a i 兴趣标签召回协同过滤召回再营销召回 w w LBS召回搜索关键词召回 ⚫ 兴趣 ⚫ 基于User ⚫ 点击历史 w ⚫ 用户定位 ⚫ 搜索行为 ⚫ 扩展兴趣 ⚫ 基于Item 社区智能人工 U G A I C 某一种召回很难兼顾相关性和多样性

6 .首页推荐Word2Vec向量实践 .c n c ug .a i ww 向量训练 w 社区智能人工在线预测分享人：余意 U G A I C

7 . Word2Vec - 向量训练 Word2Vec训练方式 .c n c ug .a i ww w 社区智能人工分享人：余意 U G A I C

8 . Word2Vec - 向量训练 .c n c u g .a i ww w ItemID 社区能聚合过滤智 HDFS 日志点击行为 UserID ItemID1 ItemID2 ItemID3 行为序列人工时间先后顺序分享人：余意 U G A I C 时间戳

9 . Word2Vec - 向量训练 .c n c u g . a i Session切分：不同城市 || 不同业务 w ww 行为序列1 ItemID1 ItemID2 ItemID3 ItemID4 ItemID5 有非同城的帖子社区有非同业务的帖子智能工行为序列1 ItemID1 ItemID2 ItemID3 G 人问题 I CU 行为序列2 ItemID4 ItemID5 A

10 . Word2Vec - 向量训练负采样优化全局采样 -> 同城采样 .c n c u g i 采样列表 .a Item1 Item2 Item3 Item4 Item5 Item6 Item7 Item8 (cum_table ) p = 词频 / 词频总和 ww w Item1 Item2 ItemK Item(K+1 社 Item(K+2区 Item(K+J) Item(K+J+1) Item(K+J+2 Item(K+J+N 能 ) ) ) ) 城市1所有帖子(1:K+1) 工智城市J所有帖子(K+2:K+J) 城市N所有帖子(K+J+1:K+J+N) G 人 cityStartIndexList U 记录城市在采样列表的起始下标列表 A I C cityEndIndexList 记录城市在采样列表的结束下标列表 localList 记录Item的地域ID列表 cateList 记录Item的业务ID列表

11 . Word2Vec - 向量训练负采样优化全局采样 -> 同城采样 .c n c u g 行为序列1 Item1 Item2 Item3 Item4 Item5 .a Item6 i ww 正样本负样本 w cityStartIndexList 城市采样列表的起始位置 Item3 Item1 社区 Item3 CityID cityEndIndexList 能城市采样列表的结束位置工 Item3 智 Item2 采样区间 Item(K+2 Item(K+J) Item(K+N) 人 ) windows = 5 negative = 5 U G Item3 Item4 Random A I C Item3 Item5 选中负样本 ItemF ItemF != Item3 ItemF不在当前行为序列中负样本和中心词业务不同 && 地域不同

12 .Word2Vec - 向量训练 .c n c u g .a i 优化前 ww 优化后数据数据条数 1100万 w 1100万 Infoid个数 4100万社区 4100万能训练方式 SkipGram + NagtiveSampling SkipGram + NagtiveSampling 训练时长工智 4个半小时 9个小时负采样个数 G 人 4个分享人：余意 4个负采样范围 I CU 全部帖子库同城库 A 向量维度 64 64

13 .Word2Vec - 向量训练 .c n c ug .a i ww w 社区智能人工分享人：余意 U G A I C

14 .Word2Vec - 在线预测 Request .c n 主体服务 c u g .a i 召回服务 ww w 兴趣标签协同过滤 LBS召回召回召回热门召回社区搜索关键向量化能词召回召回用户点击序列 Redis 智推荐服务人工 Faiss U G 向量是否向量求和 Top50 I C 存在平均相似帖子 A 向量检索 Load 点击行为向量训练向量模型序列 Word2Vec

15 .Word2Vec - 在线预测 .c n c u g .a i w IndexIVFlat IndexIVFlat IndexIVFlat Faiss集群 w w IndexIVFlat 社区 IndexIVFlat IndexIVFlat 智能索引业务ID 人工向量个数 nList nProbe Top50检索耗时 U G I C IndexIVFlat 4200万 AIndexIVFlat 4200万 1024 100 1 35ms 2 10ms

16 .Word2Vec - 在线预测 .c n 转化率 c u g i 0.76% 0.74% w .a w 0.72% 0.70% w 0.68% 社区能 0.66% 智 0.64% 0.62% 人工 G 0.60% I CU 0.58% A 2020-1121 2020-1122 2020-1123 2020-1124 2020-1125 2020-1126 Word2Vec+兴趣标签兴趣标签

17 .Word2Vec - 在线预测 .c n c ug .a i 用户向量表征受限 ww w 区没有结合场景业务社智能工 G人问题 I CU A

18 .双塔模型在首页推荐的落地流程及优化 .c n c ug .a i ww 模型架构 w 社区模型评测智能人工分享人：余意 U G在线召回 A I C

19 .双塔模型 - 模型架构 .c n c ug .a i ww w 社区智能人工分享人：余意 U G A I C

20 . 双塔模型 - 模型架构输入层 - 预训练Embedding .c n c ug 预训练 ItemIDEmbedding .a i 7天数据帖子数5000万 ww w User塔输入 Word2Vec 维度降低影响向量效果社区 ItemID Embedding 问题训练智能Item塔输入 LocalID 模型工数据 TFRecord 输入人 CateID U G A I C Lable

21 . 双塔模型 - 模型架构 n t-2天向量输入层 - 向量增量 g .c itemid1 [向量] t-5天向量 t-1天向量 i c u .a itemid2 [向量] w itemid7 [向量] w itemid7 [向量] itemid1 [向量] itemid13 [向量] w t-3天向量 itemid8 [向量] 社区 itemid2 [向量] itemid3 [向量] 能 t-6天向量智 itemid9 [向量] itemid3 [向量] itemid4 [向量] itemid9 [向量] 人工 itemid10 [向量] itemid4 [向量] 分享人：余意 G itemid11 [向量] I CU itemid11 [向量] itemid5 [向量] t-4天向量 A t-7天向量 itemid12 [向量] itemid12 [向量] itemid6 [向量] itemid5 [向量] itemid6 [向量] itemid14 [向量] 4100万增加到4700万左右

22 . 双塔模型 - 模型架构输入层 - 负样本采样 .c n c ug 1. Easy负样本 .a i w 在Batch内随机负采样 2.Hard负样本 w w 社区同城内选取和用户当前点击帖子的地域ID和业务ID都不相同的帖子作为负样本。智能人工样本组成 AUC U G C 正样本、随机负采样、规则负采样 0.533 A I 正样本、规则负采样*4、随机负采样*3 0.532 正样本、随机负采样*7 0.557 正样本、随机负采样*4 0.558

23 . 双塔模型 - 模型架构表示层 - User塔加入用户兴趣标签 .c n c ug 业务线兴趣标签字段 .a i 二手房 ww 业务ID+地域+价格+户型+面积二手车 w 业务ID+品牌+价格整租房社区地域+房价+户型能二手手机业务ID+机型+价格合租房工短租房智地域+价格+是否中介业务ID+位置+价格 G 人商铺租售地域+分类+供求+行业+业务ID I CU 货车业务ID+价格+车系 A 宠物猫/宠物狗全职招聘价格+类别类目+薪资+地域兼职招聘类目+地域

24 . 双塔模型 - 模型架构表示层 - User塔加入用户兴趣 .c n g SumPooling i c u .a weight1 weight2 weight30 w X X X Activation Activation w w Activation 区 Unit Unit Unit 能社 SumPooling 工智 G 人分享人：余意 I CU A 帖子Id 类目Id 地域Id Item1 Item2 Item30 兴趣1 兴趣2 兴趣10 行为序列用户兴趣

25 . 双塔模型 - 模型架构表示层 - User塔加入特征 .c n 特征描述 c ug 特征业务ID 设备为安卓|IOS .a i 离散型离散后的用户最新兴趣对应的点击次数 ww 离散型上一次点击类目是否是最偏好的类目 w 离散型社区用户对上一次点击类目的偏好程度连续型智能用户最感兴趣的类目的偏好程度连续型人工上一次点击地域是否是最偏好的地域离散型分享人：余意 G 用户对上一次点击地域的偏好程度连续型 I CU 用户最感兴趣的地域的偏好程度连续型 A 上一次点击类目-地域组合是否是最偏好的类目-地域组合用户对上一次点击类目-地域组合的偏好程度离散型连续型用户对点击次数最多的类目偏好程度连续型用户对点击次数最多的地域偏好程度连续型

26 . 双塔模型 - 模型架构匹配层 .c n c ug [P+,P-,P-,P-,P-] .a i ww w 社区智能 Loss函数人工分享人：余意 U G A I C

27 . 双塔模型 - 模型评测覆盖率和平均位置 .c n c ug .a i 覆盖率 = 召回结果包含用户下一次点击帖子样本数 / 点击数据总条数 ww w 社区智能人工分享人：余意 U G A I C

28 .双塔模型 - 模型评测 .c n c u g AUC 覆盖率 .a i 平均位置 0.561 20.00% ww 22 w 0.56 10.00% 区 20 0.559 0.558 AUC 能社 0.00% 覆盖率 18 智平均位置工原始双塔模型原始双塔模型分享人：余意人原始双塔模型加入用户兴趣 G 加入用户兴趣加入用户兴趣 U 加入用户特征加入用户特征 I C 加入用户特征 A

29 . 双塔模型 - 在线召回 User塔向量化召回 .c n c ug .a i ww w 社区智能人工 U G A I C

1点赞

0收藏

7下载