实名内容社区推荐算法与架构-李益群-脉脉

主要内容: 常见推荐场景与实名推荐 推荐系统架构介绍 文本与用户触发 排序与体验策略 高可用系统研发 实名推荐系统面临问题
展开查看详情

1.脉脉实名推荐算法与架构研发 李益群 2018.11.23

2. 目录 • 常见推荐场景与实名推荐 • 推荐系统架构介绍 • 文本与用户触发 • 排序与体验策略 • 高可用系统研发 • 实名推荐系统面临问题

3.常见推荐场景简介

4. 实名推荐场景 • 打造高度活跃的实名 内容社区,协助用户 快速获取有价值内容 信息,提升脉脉用户 活跃度

5. 资讯推荐与实名社区推荐差异 • 推荐内容源差异 – 长文本/短视频 vs 短动态 – 自媒体 vs 垂直社区 • 推荐用户圈层限制 • 推荐目标指标差异 – 资讯流指标 – 推荐优化目标以评论入手 • CTR在社区业务中不重要 • 时长与刷新难以直接优化 • 留存外部影响太大,初期难以专注提升

6. 实名推荐目标 • 实名推荐本质上要解决用户、环境、文章之间的匹配 Y = F(Xu,Xi,Xc)关系

7.实名评论数据指标

8. 目录 • 常见推荐场景与实名推荐 • 推荐系统架构介绍 • 文本与用户触发 • 排序与体验策略 • 高可用系统研发 • 实名推荐系统面临问题

9. 推荐流程 用户浏览请求 画像:根据用户浏览记录得到用户兴趣 检索:根据兴趣匹配出相关,热点等动态 排序:对检索动态做出精排,展示给用户 用户点击文章,反馈效果

10.脉脉实名推荐系统架构图

11. 目录 • 常见推荐场景与实名推荐 • 推荐系统架构介绍 • 文本与用户触发 • 排序与体验策略 • 高可用系统研发 • 实名推荐系统面临问题

12. 文本特征 • 显式语义标签:文章显式语义特征,确切意义标签,关键词、 用户职场标签、搜索词、分类等 • 隐式语义标签:主要是主题特征,没有明确意义ID类标签 • 质量模型:内容是否低俗,职场相关 • 时效特征:是否适合长效分发,时效性判断 • 招聘特征:适合求职者动态,招聘贴

13.文本解析服务

14.文本解析服务接口协议 – 实例

15. 关键词抽取&扩展(实例) ➢ Feed Text: 阿里巴巴是一家伟大的企业,总部在杭州,CEO是马云,毕业于杭州师范大学, 业务涵盖电子 商务,人工智能等领域。。 ➢ Keywords : 杭州师范大学:ntu:5.09 电子商务:nn:3.01 阿里巴巴:ntc:2.64 马云:nr:2.59 人工智 能:nn:2.51 杭州:ns:2.49 ➢ 命名实体识别 ➢ 学校或组织(ntu) : 杭州师范大学 ➢ 公司(ntc) : 阿里巴巴 ➢ 人名(nr) : 马云 ➢ 地理位置(ns): 杭州

16. 文章主题标签抽取 71434243 沪指,0.593 创业板,0.437 A股市场,0.332 A股,0.256 中国股市, 0.133 牛市,0.103418702101 股市,0.101 券商股 71434249 NASA,0.294 宇宙,0.1668国际空间站,0.166 恒星,0.162 地球, 0.152 太空,0.132火星上,0.113706501121 火星 ,0.113 小行星,0.106 黑洞,0.103 星系,0.103 71434256 楼市,0.306 房地产市场,0.277 房价,0.245 房价上涨,0.222 中国房地产市场,0.168 房地产行业,0.159 一线城 市房价,0.153 环比,0.124中国楼市,0.120 房企,0.115 71434261 脉脉,0.953 LinkedIn,0.950 职场社交,0.940 领英, 0.931 林凡, 0.722 沈博阳,0.559 职业社交,0.217 LinkedIn入 华,0.203 职场人,0.195 赤兔,0.122 社交产品,0.119 职场人士,0.116 创业公司,0.105

17.基于主题标签的用户画像【实例】 脉脉,0.853 LinkedIn,0.750 职场社交,0.660 领英, 0.651 林凡, 0.622 沈博阳,0.591 职业社交,0.417 LinkedIn入华,0.303 职场人,0.295 赤 兔,0.122 社交产品,0.109 职场人士,0.106 创业公司,0.105 weight : 6.378901 weight : 9.389975 苹果,0.384 iPhone,0.338苹果的, 0.217 苹果公司,0.166 Apple,0.163 iPhone6,0.137 iOS,0.113 Watch,0.110 weight : 2.993016 楼市,0.306 房地产市场,0.277 房价, 0.245 房价上涨,0.222 中国房 地产市场, 0.168 房地产行业,0.159 一线城市房价, 0.153 环比 ,0.124

18. 内容质量识别 • 招聘/资源贴识别:识别出资源合作贴,控制内容调性,人工标注万级 别样本,准确率90% • 晒照识别:控制美女低俗图片 • 内容质量 – CNN文本分类: – 谩骂、投诉识别:净化浏览氛围,90%准确率 – 优质精选内容识别:筛选职场相关优质观点贴,采用固定位保分发量,25%曝光 优先分配 – 泛职场内容识别:职场相关但是内容质量一般,或者职场无关内容

19. 内容质量识别 • 招聘贴识别实例 • 质量分模型实例

20. 用户文本兴趣 • 用户文本兴趣 = 用户行为 + 文本标签 – 用户兴趣建模:阅读【阿里】动态的用户打上【阿里】标签 – 内容推荐:【阿里】的动态推荐给喜欢【阿里】用户 • 文本兴趣对于推荐意义 – 冷启动内容推荐 – 没有文本特征,相关性很差 – 语义标签是检验一个公司NLP技术水平试金石

21. 用户文本兴趣(实例) • 用户profile文本: – 职业标签:It互联网、机器学习、推荐算法 – 工作经历:百度、腾讯… – 用户点评:用户画像、广告推荐… • 用户行为文本兴趣: – 关键词&扩展关键词:三星电子/nz:64.8217 乐视网/nu:60.9597 职场社交/nu:53.0521 Galaxy/eng:49.3964 职场人士 /nu:48.8912 职场人/nu:46.2834 A轮融资/chneng:42.636 乐视/nu:42.4724 三星/nu:41.5705 在线教育平台 /nu:34.9422 苹果公司/n:30.3314 脉脉/n:25.6899 晨兴资本/nu:23.0286 赌场/n:22.889 融资/nu:22.8297… – 实体词:乐视,脉脉,苹果,马云 – 主题label: 71434261, 71434263, 71433422 – 晒照兴趣度:0.23 – 招聘贴兴趣度:0.01 – Embedding Id兴趣度

22. 用户关系链兴趣 • 显式兴趣 – 搜索过的用户(候选集合已加) – 极速联系过的用户 – 观看过profile的用户 – 申请加好友未通过 • 隐式兴趣 – 同行业方向用户(分发限制) – 同公司用户 – 好友推荐关系 – 协同关系用户 – 用户聚类分层

23.好友推荐关系

24.协同相似用户

25. 用户协同&分层 ➢ ALS模型流程,输出用户可推荐 FEEDS ➢ 用户兴趣分层,按照用户属性兴趣 进行分群

26. 为什么需要召回? • 内容量大, 直接模型运算性能开销巨大,无法handle,可 解释性差 • 基于画像匹配的召回可以有效的解决成本与效果平衡问题

27. 目录 • 常见推荐场景与实名推荐 • 推荐系统架构介绍 • 文本与用户触发 • 排序与体验策略 • 高可用系统研发 • 实名推荐系统面临问题

28. 排序 用户浏览请求 画像:根据用户浏览记录得到用户兴趣 检索:根据兴趣匹配出相关,热点等动态 排序:对相关动态做出精排,展示给用户 用户点击文章,反馈效果

29. 排序方法 • 广告推荐排序:BID*pow(PCTR,alpha)*pow(PCVR,beta)… • 我们的排序:f(model(PCVR),model(PCTR)…) + RULE1 + RULE2… – 预估评论率 – 多样性 – 优质内容涌现 – 视觉体验等多方面因素