深度学习技术在美图个性化推荐

下载 8

陈重丶

发布于

1892

人观看

#信息技术

1、美图社区个性化推荐场景和挑战
2、召回端
2.1 item2vec
2.2 YouTubeNet
2.3 双塔DNN
3、排序端
3.1 NFwFM
3.2 Multi-task NFwFM

展开查看详情

1 .深度学习技术在美图个性化推荐的应⽤用实践陈文强

2 . 1、美图社区个性化推荐场景和挑战 2、召回端目录 2.1 item2vec CONTENT 2.2 YouTubeNet 2.3 双塔DNN 3、排序端 3.1 NFwFM 3.2 Multi-task NFwFM

3 .01 个性化推荐业务场景美图秀秀社区内容推荐tab 美图社区相似推荐feeds流美图社区视频feeds流

4 .01 工作目标理解内容&用户精准推荐连接用户与内容理解用户大规模深度学习模型实现千人千面理解内容基础画像: 年龄、性别… 设备画像: OS, 机型… 持续提升用户体验视觉特征: 风格、质量、领域画像: 兴趣、风格… 清晰度文本特征: 关键词、实体促进社区繁荣词… 领域特征: 点击率，用户行为统计…

5 .01 挑战海量 1亿+ 用户 100万+ 候选图片/视频实时每天3亿+ 个性化排序请求端到端请求时延在300ms以内长尾新用户: 曝光占比27% Item分布: 曝光分布长尾，关注<< 点击<<曝光

6 .02 美图深度学习技术栈 Item2vec YouTubeNet 双塔DNN 召回端 LR NFM … NFwFM Multi-task NFwFM 排序端

7 .02 召回——Item2vec 通过用户行为内容 high co-occurrences item侧的行为统计类特征. 点击率，收藏率, e.g. 对内容的理解维度单一内容的视觉，文本特征. 图片质量，物体，关键词, e.g. 无法表达潜在特征, 如是否清新有趣? 通过用户序列行为理解内容 medium co-occurrences 同个上下文里的item具有内在相似性, 如item都是清新有趣的 Query image [白杨, 2018]. 基于用户行为的视频聚类方案

8 .02 召回——Item2vec Skip-Gram + Negative Sampling 关键参数含义考量 context_item=64 上下文item数取64 更容易找到相似item Threshold=5 过滤序列长度不少于覆盖99%的item Item2vec相关的召回策略曝光占比 5的样本 Neg_sample=128 负样本数采样为64*2 效果和性能的折中 Embedding_size=128 128 效果和性能的折中 Item2vec 超参数问题：仅基于item的上下文共现的Embedding Vector缺乏精细的个性化

9 . 02 召回——YouTubeNet(1/2) 用户相关的item embedding(个性化) training阶段: 引入用户的个性化信息, 学习user embedding & item embedding , 导出 , serving阶段: FAISS离线计算好每个用户的top N 候选item

10 .02 召回——YouTubeNet(2/2) 一天一更实时计算提升： ü点击率：+3.67% ü人均时长：+2.22% YouTubeNet召回策略曝光占比 YouTubeNet在线计算用户侧向量

11 . 02 召回——双塔DNN 联合用户行为和item侧特征进行召回 training阶段: Item侧引入更多特征 serving阶段: 实时计算用户向量，内积检索top N item 效果： ü点击率：+1.05% ü人均时长：+0.76%

12 .03 美图深度学习技术栈 Item2vec YouTubeNet 双塔DNN 召回端覆盖10%+pv的多点击率：+3.67% 点击率：+1.05% 个召回策略人均时长：+2.22% 人均时长：+0.76% LR NFM … NFwFM Multi-task NFwFM 排序端

13 .03 排序——深度学习时代 LR+人工特征组合: LR NFM模型: • FM&MLP端到端联合联合训练, • 显式学习特征交叉效果： ü点击率：+5.53% Neural Factorization Machines ü人均时长：+6.97% [蒋文瑞 2018]. 深度模型DNN在个性化推荐场景中的应用

14 .03 排序——探索过的模型模型名称出处年份实践效果(AUC) 优点不足 Wide&Deep Google 2016.06 -0.024 首次公开&应用深度 LR组件需人工组合学习到推荐系统特征，效率低 DeepFM Huawei Noah 2017.03 -0.003 FM取代LR组件,不仅限二阶特征和隐需人工组合式高阶特征 NFM NUS 2017.08 0.0(baseline) 引入特征的乘性关仅限于二阶特征和系到深度学习网络隐式高阶特征 DCN Google 2017.08 -0.002 特征组合阶数可控，低阶交叉无明显优不限于二阶特征势，高阶交叉时因多项式乘法, 数值不稳定 xDeepFM Microsoft Research 2018.05 +0.009 引入特征field信息计算复杂度高, 落地构造复杂特征组合困难 NFFM NJU 2019.04 +0.009 引入特征field信息，模型参数量大，落构建二阶特征交叉地困难

15 . 03 排序——重新审视NFM Bi-Interaction 端到端引入FM到深度模型, 显式构建特征的乘性关系线性时间复杂度 Embedding layer宽度不能太小 ~200 co-training issue 无法建模gender和network相互独立的情况 Neural Factorization Machines

16 .03 排序——Leverage field information 浅层模型时代: FFM ≈ FwFM > FM 深度模型时代: NFFM ≈ xDeepFM > DCN ≈ NFM 受限于计算量和参数量，无法大规模应用

17 .03 排序——NFwFM(1/5) Field-wise Bi-Interaction Neural Field-wise Factorization Machines [陈文强 2018]. NFwFM模型的设计和落地实践

18 .03 排序——NFwFM(2/5) • FwFM模型尺寸相对FFM少M-1倍 • Matrix Factorization形式的field结构, M=3 • Field-wise 𝑟#,% 解耦𝑣# 和𝑣% 的co-training • 离线评估, MF分解前后FwFM的AUC等指标持 • FwFM AUC ≈ FFM AUC 平 FwFM相对FFM, 模型尺寸小M-1倍 Decouple 𝒗𝒊 and 𝒗𝒋 Embedding vector of field j 参数规模不变，计算量降低 ~M*M倍.

19 . 03 排序——NFwFM(3/5) • Field内引入FM, 显式学习二阶特征交叉 • AUC等离线指标提升 +0.002 Field-wise Bi-Interaction

20 . 03 排序——NFwFM(4/5) FM的co-training issue FM无法建模 Dropout缓解co-training, 离线AUC提升 +0.001 _train _inference

21 .03 排序——NFwFM(5/5) Field-wise Bi-Interaction 性能提升 v.s. 上一代模型NFM ü计算量：减少6倍 ü参数量：减少6倍效果 ü点击率：+5.19% Neural Field-wise Factorization Machines

22 .03 排序——Multi-task NFwFM(1/3) 多任务学习的优势 1、目标个数可拓展 hard-sharing, 时间和空间复杂度可控 2、任务间相关部分增加共享隐层的学习速度 3、任务间不相关部分相当于噪声，增强模型泛化能力训练方式预估方式效果点击率：+1.93% 关注转化率：2.90% [陈文强 2019]. 多任务学习在美图推荐排序的近期实践 Multi-task Neural Field-wise Factorization Machines

23 .03 排序——Multi-task NFwFM(2/3) 样本reweight 更多、更高质量的数据 reweight有关注feed的点击率举例, 关注转化率: A>C>B>D=0 效果: 点击率：+0.84% 关注转化率：14.93%

24 .03 排序——Multi-task NFwFM(3/3) Homoscedastic Uncertainty学习方式效果点击率：1.57% 关注转化率：15.65% [Kendall A et al. 2017], Multi-task learning using uncertainty to weigh losses for scene geometry and semantics

25 .03 美图深度学习技术栈 Item2vec YouTubeNet 双塔DSSM 召回端覆盖10%+pv的多点击率: +3.67% 点击率: +1.05% 个召回策略人均时长: +2.22% 人均时长: +0.76% LR NFM NFwFM Multi-task NFwFM 排序端点击率: +5.53% 点击率: +5.19% 点击率: +1.57% 人均时长: +6.97% 人均时长: +2.93% 关注转化率: +15.65%

26 .深度学习技术在美图个性化推荐的应⽤用实践 Q&A

0点赞

2收藏

8下载