推荐系统在家庭智能终端上的应用

本次分享主要讲解推荐系统在家庭智能终端上的应用。家庭智能终端一般用遥控器操作,面对的受众是家庭用户,因此构建推荐系统有自身的特点。由于操作没有移动端快捷方便,推荐系统的价值会更加凸显出来。

作者基于自己在电视猫8年推荐系统工程实践经验,讲解在家庭智能终端上构建个性化推荐系统遇到的困难与挑战。并以我们公司的产品电视猫为例,讲解我们是怎么解决这些问题的,我们构建个性化推荐的产品方法论、算法体系与工程实现细节,梳理我们构建推荐系统过程中的经验与教训。最后结合作者自己的理解,对推荐系统在家庭智能终端上的未来优化与发展方向提出一些思考。

主要包括5大块内容:

  1. 家庭端做智能推荐面临的困难和挑战;
  2. 推荐系统介绍(大数据架构、用户画像、推荐架构、推荐算法案例、推荐效果评估及AB测试等);
  3. 讲解作者团队8年推荐的成果;
  4. 经验及教训总结;
  5. 未来展望;
展开查看详情

1.推荐系统在家庭智能终端上的应⽤用 gongyouliu

2. ⾃自我介绍 ⾃自我介绍 09年年毕业,从事⼤大数据与AI近⼗十年年,有9年年推荐系统算法研究及⼯工程实践经验 业余喜欢读书、暴暴⾛走、写技术和深度思考类⽂文章,维护“⼤大数据与⼈人⼯工智能”和“gongyouliu”两个公众号 公司及⼯工作介绍 电视猫MoreTV是⼀一款基于智能电视以及互联⽹网机顶盒的视频应⽤用 ⼤大数据基础架构、数仓、BI、搜索、推荐、NLP等 电视猫从12年年开始做推荐系统到现在差不不多8年年

3. Agenda • OTT端⾯面临的困难与挑战 • 电视猫个性化推荐 • ⽬目前成果 • 经验与教训 • 未来展望

4.

5.OTT端⾯面临的困难与挑战

6.OTT(Over The Top)端⾯面临的困难与挑战 ⾯面向家庭多⼈人场景,多⽤用户共⽤用⼀一台设备 操控不不便便,以遥控器器为主,语⾳音交互还未流⾏行行起来 内容监管较严格,需要牌照

7.电视猫个性化推荐

8.⼤大数据平台:AI&BI赋能业务

9.⼤大数据平台:提供基于数据流的端到端解决⽅方案 ⽇日志格式定 义 元数据中⼼心 通⽤用化 ⽇日志打点 ⾃自动化 数据分析 数据可视 模块化 搜索&推荐 ⽤用户画像 挖掘 化 解耦合 打点SDK ⽇日志收集 调度平台 计算平台 ⽇日志预处理理 系统 ETL平台 元数据中⼼心 数仓 数据预处理理 构建数据模型

10.⽤用户画像与⽤用户标签体系

11.⻓长短视频的三级标签体系 ⻓长视频:基于最细粒度标签向量量,⼈人⼯工 打权重,向量量相似计算节⽬目相似度 短视频:基于三级标签,利利⽤用策略略、规 则、算法计算相似度。利利⽤用NLP从标题 中提取关键词补充三级标签,建⽴立倒查 索引表,实时更更新相似度

12.推荐系统:构建驱动业务的闭环 AB测试 指标体系 红⾊色是电视猫特有的业务 ⽤用户⾏行行为 数据 热⻔门推荐 主题推荐 ⼈人⼯工标注 相关推荐 兴趣重排序 数据 个性化推荐 流式推荐 第三⽅方数 特征仓库 据 数据源 特征 算法 业务 评估 Doraemo Doraemon nBiz 基于⾃自建的⼤大数据平台和Doraemon算法框架,具备提供推荐整体解决⽅方案的能⼒力力

13.推荐系统范式 范式1:完全个性化范式 范式4:标的物关联标的物范式 范式2:群组个性化范式 范式5:笛卡尔积范式 范式3:完全⾮非个性化范式

14.推荐系统范式 推荐范式 产品形态 算法 说明 兴趣推荐、猜你喜欢、会员推 ALS、标签、item2vec、DL、追 完全个性化 荐、主题推荐、兴趣播单 每个⽤用户推荐的都不不⼀一样 剧模型 先将⽤用户聚类,同⼀一类⽤用户推荐 群组个性化 列列表重排序 ALS、Kmeans、标签 ⼀一样,不不同类不不⼀一样 如圈⼈人运营等 所有⽤用户推荐都⼀一样,如编辑编 ⾮非个性化 排⾏行行榜、冷启动 topN 排推荐 每个标的物关联⼀一批标的物,不不 标的物关联标的物 相关推荐、退出推荐、连播推荐 item2vec,ALS、标签 同标的物关联的不不⼀一样 如每个⽤用户在每个视频关联的推 笛卡尔积 ⽆无 ⽆无 荐不不⼀一样,每个⽤用户搜索的同⼀一 个关键词不不⼀一样等

15.推荐产品形态 ⻓长视频主题推荐 ⻓长视频兴趣重排序 ⻓长视频流式兴趣推荐 ⻓长视频相似影⽚片

16.推荐产品形态 ⻓长视频猜你喜欢 短视频退出推荐 短视频连播推荐 短视频实时流式推荐

17.企业级推荐系统架构:三阶段的pipeline架构 召回引擎 排序引擎 基础数据/特征服务 热⻔门 主题 协同过滤 Logistic回归 看过的节 节⽬目库 会员⽤用户 ⽬目 Item2Vec ALS 标签 Wide&Deep 画像信息 下线节⽬目 会员节⽬目 追剧 DL ⽤用户画像 节⽬目评分 ⽤用户维度 的数据 视频维度 Spark计算平台 的数据 召回 排序 业务调控 ⽤用户⾏行行为 Tensorflow训练 数据 平台 推荐系统业务流 数 ⼈人⼯工标注 数据 调整顺序 置顶热⻔门节⽬目 剔除/替换节⽬目 第三⽅方数 据 计算与存储中⼼心 业务控制 数据源

18.推荐业务的抽象 任何⼀个推荐业务可以抽象为由数据/模 型为节点,算⼦为边的“有向⽆环图”

19.推荐链路路:数据流与算⼦子流的交叉迭代

20.推荐架构:基于Doraemon框架快速⾼高效构建推荐业务 业 务 赋 A B C D E …… 产品矩阵 能 业务赋能,复⽤用到新产品 业务范式 热⻔门推荐 退出推荐 相关推荐 拼⾳音搜索 ⼆二 次 DoraemonBiz 封 装 猜你喜欢 连播推荐 tab重排序 主题推荐 算⼦子组装成推荐业务,⼀一个业 务对应⼀一个推荐产品形态 算法模型 ⼀一 矩阵分解 逻辑回归 协同过滤 追剧模型 Word2Vec 次 封 Doraemon 深度学习 聚类 过滤看过的 聚合 取热⻔门节⽬目 装

21.推荐系统:相似影⽚片

22.推荐系统:相似影⽚片

23.推荐系统:AB测试平台

24.推荐系统:指标体系

25.推荐系统怎么解决OTT端的困难 多视频类别召回 ⾯面向家庭多⼈人场景,多⽤用户共⽤用⼀一台设备 分时段召回 近实时反馈 缩短UI交互路路径 操控不不便便,以遥控器器为主,语⾳音交互还未流⾏行行起来 在⽤用户的关键路路径插⼊入推荐模块 推荐源⼈人⼯工可控 内容监管较严格,需要牌照 推荐结果⼈人⼯工可⼲干预 业务调控可整合⼈人⼯工规则

26.⽬目前成果

27. ⽬目前成果 构建了了⼀一套完善统⼀一的推荐算法体系,⽀支撑搜索、⻓长短视频推荐业务 15+推荐产品形态,推荐覆盖所有⽤用户核⼼心路路径 播放时⻓长、播放VV占整个⼤大盘⽐比例例超过20%、25% 15+算法相关专利利,100+技术原创⽂文章

28.经验与教训

29. 经验与教训 从烟囱式架构到模块化架构 从关注产品形态落地到关注业务价值 构建指标体系量量化价值产出、构建迭代闭环 将核⼼心精⼒力力放到产出最⼤大的核⼼心业务上 技术栈的统⼀一性,做减法 在算法效果、好的产品形态、易易于落地之间做好平衡

刘强,硕士学历,09年毕业于中国科学技术大学数学系。有10年大数据与推荐系统相关经验,精通大数据与推荐系统。负责上海千杉网络技术发展有限公司大数据与人工智能团队。业余时间维护“大数据与人工智能”和"gongyouliu"两个公众号,发表大数据、推荐系统、个人成长感悟相关文章。
关注他