快看漫画个性化推荐探索与实践

下载 6

陈重丶

发布于

1577

人观看

#信息技术

一、业务介绍
二、技术挑战
三、技术探索
四、总结与未来规划

展开查看详情

1 .快看漫画个性化推荐探索与实践夏博 2019年9月

2 .目录一、业务介绍二、技术挑战三、技术探索四、总结与未来规划

3 .目录一、业务介绍二、技术挑战三、技术探索四、总结与未来规划

4 .了解快看漫画中国新生代内容社区和原创IP平台截至2019年7月总用户量已经突破2亿，注册用户量突破1亿，月活突破4000万绝大多数用户属于高活跃、高粘性的95后、 00后被 QuestMobile 等机构评为“最受 00 后欢迎的产品

5 .快看漫画推荐业务内容形式推荐业务场景人长漫画首页个性发现页推世界页推帖底相关短漫画推荐tab 荐tab 荐tab 推荐图文帖子精准匹配视频帖子 … 内容

6 .目录一、业务介绍二、技术挑战三、技术探索四、总结与未来规划

7 .内容形式多样挑战：长内容短内容技术上如何捕捉长内容的连续性、周期性、多兴趣点等特点？漫画、小说等短视频、新闻资讯、快看漫画既有长内容又有大块时间，阅用户帖子等短内容，如何较好的融合读周期长碎片化时间，阅读时两类内容？连续性、周期间短性、多章节多兴趣点通常单一兴趣点

8 .内容风格独特挑战：图像文本如何进行漫画类图像内容理解？独特社区文化，新生代文漫画图像帖子内容化“暗语”，给文本内容理解帖子图片弹幕带来挑战评论

9 .目录一、业务介绍二、技术挑战三、技术探索四、总结与未来规划

10 . 算法方面的探索系统架构方面的探索

11 .推荐算法演进前深度学习时代深度学习时代协同过滤 FNN FM,FFM Wide&Deep LR DeepFM GBDT DIEN 可解释 XGBoost 效果更好 … 易训练 … 算法平台搭建周易部署期更长难以解释和干预

12 .快看推荐算法迭代基于内容协同过滤 XGBoost 深度学习 2019年前 2019年上半年 2019年到现在未来

13 .基于内容的推荐内容理解标签推荐结果兴趣模型用户偏好优点：基于已有标签快速实现推阅读历史荐功能可解释性强

14 .快看漫画标签体系作品基础维度彩色单元剧用户分发维度搞笑中性内容创作维度青少年日常现代青春青春成长治愈学生校园兄妹逗比阳光

15 .用户兴趣模型相关行为行为粒度（作品or章节）章节数量兴趣衰减阅读用户兴趣作品热度关注恐怖0.5 点赞搞笑0.6 作品兴趣度标签兴趣度玄幻0.4 评论热血0.8 分享悬疑0.6

16 .基于内容推荐总结缺点：非常依赖标签推荐粒度较粗，召回不足 DAU人均阅读缺乏新颖性次数率提升35%

17 .基于协同过滤基于物品的协同过滤(Item-Based) 基于用户的协同过滤(User-Based) 基于模型的协同过滤(Model-Based)

18 .KNN召回 • 基于用户的协同算法用户相似度计算量巨大单机CPU的benchmark 训练集：1,183,514 • ANN（Approximate Nearest Neighbor）维度：200 • nmslib vs. faiss 近邻数：100 Nmslib faiss 实现语言 C++ C++ Python绑定 ✅ ✅ GPU支持 ❌ ✅ HNSW算法 ✅ ✅ 其他算法 VP-Tree, LSH NAPP, IVF(IndexIVFFlat) SW-graph IVFADC(IndexIVFPQ) , IVFADC-R(IndexIVFPQR)

19 .KNN召回 Faiss IndexIVFFlat • 训练&建索引 1. 聚类（聚类中心存储在量化器quantizer中） 2. 找到每个向量最近的聚类中心点 3. 建立倒排id list 4. 建立倒排code list • 搜索topK 1. 搜出查询向量最近的n个聚类中心点ID及对应的距离 2. 构建k个元素最大堆 3. Id对应的倒排list每个向量计算距离后放入最大堆 4. 堆排序 Faiss IndexIVFPQ • 更加复杂，计算残差，通过构建二级索引加速计算

20 .基于协同过滤总结缺点：倾向于推荐热门内容 DAU人均阅读对新用户和新内容不友好次数提升31% 相似矩阵的计算量大

21 .召回排序模型 Content-based Items UserCF Items ItemCF Items CTR预估 Items Data SVD Items ALS Items FM Items 召回层排序层

22 .常用CTR预估算法 LR FM & FFM 𝑛 𝑛 𝑛 𝑦 = 𝑤0 + 𝑤𝑖 𝑥𝑖 + 𝑉𝑖 , 𝑉𝑗 𝑥𝑖 𝑥𝑗 1 ℎ𝜃 𝑥 = 𝑇𝑥 𝑖=1 𝑖=1 𝑗=𝑖+1 1 + 𝑒 −𝜃 𝑛 𝑛 𝑛 𝑦 = 𝑤0 + 𝑤𝑖 𝑥𝑖 + 𝑉𝑖,𝑓𝑗 , 𝑉𝑗,𝑓𝑖 𝑥𝑖 𝑥𝑗 𝑖=1 𝑖=1 𝑗=𝑖+1 GBDT DNN

23 .CTR预估算法模型优势劣势低阶特征高阶特征表达表达 LR 1）模型简单，善于处理离散化特征 1）特征需要离散化； ✅ ❌ （包括id类特征）； 2）特征之间在模型中是孤立的，需要做大 2）容易实现分布式，可处理大规模量特征工程来做特征交叉特征和样本集 XGBoost 1）树模型具有一定的组合特征能力； 1）具有很强的记忆行为，不利于挖掘长尾 ❌ ✅ 2）善于处理连续特征，可进行特征特征；筛选，人工特征工程量少 2）组合特征的能力有限 FM&FFM 1）可以自动进行特征间的组合， 1）工作量接近深度学习，效果不如深度学 ✅ ✅ 2）通过引入特征隐向量，加速了训习练的复杂度，善于处理稀疏数据 2）FFM计算复杂度高 DNN 1）可直接输入原始特征，减少交叉 1）可解释性差 ❌ ✅ 特征选择 2）模型可能较大，调参复杂，需要较大的 2）效果好工程支持

24 .CTR预估算法模型优势劣势低阶特征高阶特征表达表达 LR 1）模型简单，善于处理离散化特征 1）特征需要离散化； ✅ ❌ （包括id类特征）； 2）特征之间在模型中是孤立的，需要做大 2）容易实现分布式，可处理大规模量特征工程来做特征交叉特征和样本集 XGBoost 1）树模型具有一定的组合特征能力； 1）具有很强的记忆行为，不利于挖掘长尾 ❌ ✅ 2）善于处理连续特征，可进行特征特征； 🙋♂ 筛选，人工特征工程量少 2）组合特征的能力有限 FM&FFM 1）可以自动进行特征间的组合， 1）工作量接近深度学习，效果不如深度学 ✅ ✅ 2）通过引入特征隐向量，加速了训习练的复杂度，善于处理稀疏数据 2）FFM计算复杂度高 DNN 1）可直接输入原始特征，减少交叉 1）可解释性差 ❌ ✅ 特征选择 2）模型可能较大，调参复杂，需要较大的 2）效果好工程支持

25 .召回排序模型总结现状和问题：特征还需要进一步挖掘 DAU人均阅读模型的训练效率有待提升次数提升36.6% 探索尝试新模型提升效果

26 . 算法方面的探索系统架构方面的探索

27 .架构的重要性算法是大脑，架构是骨架，如果没有好的推荐系统架构，算法很难落地好的推荐系统需要具备的特质：实时响应请求及时、准确、全面的记录用户反馈优雅降级快速迭代推荐策略、算法

28 .经典Netflix推荐系统架构离线层 o 不用实时数据，不提供实时服务近线层（准实时层） o 使用实时数据，不保证实时服务（秒级） o 近在线计算的完成是为了响应用户事件，增量学习算法很适合应用在接近在线计算中在线层 o 使用实时数据，要保证实时服务（毫秒级） o 在线服务的各组件要满足SLA对可用性和响应时间的要求

29 .快看推荐系统架构工具 IOS/Android/Web 推荐结果追踪标签权重调参工具服服务端（漫画，社区）务监基础服务控推荐引擎实时用户画像 UserHistory 排序 Kafka Flink 热度池历史用户画像客户端兴趣 UserCF 召回 Predictor UserProfile 数精品池 ItemCF 动态文档据 Flume 相似指 kNN Document 标运营池召回 User2User 静态文档 Spark HDFS 监业 Sqoop 控务标签索引向量索引算法模型模型训练特征工程库召回在线层近线层离线层其他

0点赞

1收藏

6下载