WM_智能推荐演变之路

浙江大学硕士毕业,阿里巴巴高级算法专家,加入阿里巴巴以来一直致力于研究搜索推荐相关技术,相关工作包括自然语言处理,查询词分析技术研究,知识图谱数据构建,实体推荐等多个不同方向。当前是夸克浏览器智能推荐业务业务负责人,致力于推动推荐从传统的用户行为推荐向知识化推荐的升级,从而提升用户信息获取信息的边界,加快信息决策的效率。

展开查看详情

1. 区 术 cn 社 技 g. 能 cu 智能推荐演变之路 智 ai 工 . ww 阿里巴巴-创新事业群-夸克智能搜索 G人 w 王 跃 2019.8.17 CU AI

2. 01 概览 区 召回 术 cn 02 社 用户行为分析 技 g. 标签召回 知识图谱召回 能 cu CONTENTS 向量召回 智 ai 03 排序 工 . 基础相关性模型 ww 点击率预估模型 MAB G人 w CU AI •2

3.概览-场景介绍 通用文字推荐 Ø 目标: 区 术 cn • 导流,流量=钱 预置词 社 • 内容循环消费 技 g. 能 cu Ø 输入: 相关搜索 • Sug 实体推荐 智 ai • 预置搜索词 • 搜索发现 工 . 为您推荐 ww Ø 搜索结果页: • 文字推荐 • • 为您推荐 实体推荐、app推荐、小说推荐 G人 w H5推荐 • 相关搜索 CU Ø 内容页: • H5底部推荐 AI • 转码页推荐

4.概览-技术大图 区 输入推荐 术 cn 结果页推荐 内容页推荐 智能化业务 社 sug 文字推荐 小优 技 g. 业务 为您推荐 H5推荐 夸克宝宝 预置词 实体推荐 UC二楼 能 cu 转码页推荐 搜索发现 相关搜索 问答推荐 智 ai 排序 混排机制 文本相关性 CTR预估 MAB(UCB, TS) 工 . ww 用户行为召回 检索召回 知识图谱召回 召回 日志数据梳理 G人 w 用户画像召回 知识图谱梳理 向量召回 问答数据梳理 图谱召回 话题图谱构建 数据梳理 日志闭环 实体去重 问题识别 话题生成 日志融合 实体消歧 答案选取 话题理解 CU 点击特征 实体特征 多源融合 话题连接 AI 问答数据 用户画像 新热内容 通用问答 数据层 UC用户日志 夸克用户日志 知识图谱 话题图谱

5. 01 概览 区 召回 术 cn 02 社 用户行为分析 技 g. 标签召回 知识图谱召回 能 cu CONTENTS 向量召回 智 ai 03 排序 工 . 基础相关性模型 ww 点击率预估模型 MAB G人 w CU AI •5

6.召回-用户行为召回 区 Ø 多样性优化 术 cn • 针对不同类型的行为进行权重区分 社 • 对session中最后一次搜索做加权 数据对外服务(Athena) 技 g. 能 cu Ø 时效性优化 • 使用X天挖掘日志,中高频挖掘相似query使用动态窗口 多样性优化 时效性优化 稀疏优化 智 ai • 相似度计算按时间衰减 工 . Ø 稀疏优化 ww 搜了又搜 搜了又看 看了又搜 相似 • 基于文本的泛化:title相似的doc共享推荐list (NextQ) (Url PreQ) (Url NextQ) Query&Url • 基于行为的泛化:相似query共享推荐list G人 w 用户session日志 Ø 收益 • UrlNextQuery个数>=5的比例由x%提升到x% 铜矿日志(用户搜索,浏览日志) CU • 搜了又搜在query推荐中覆盖率由x%提升到x% • 相关搜索Ctr提升x%,通用文字推荐Ctr提升x% AI

7.AI 召回-用户行为分析 CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区

8.召回-标签召回 区 Ø 目标 术 cn • 构建标签库 社 • 帮助用户准确及时获取自己关注信息的动态 技 g. Ø 问题&难点 能 cu • 随意性强,口语化 智 ai • 标签种类多样,资源库标签覆盖不足 工 . ww Ø 解决方案 – 标签挖掘 • 人工运营 G人 w • Pattern挖掘 • 远程监督模型挖掘(BI-LSTM CRF模型) CU AI

9.召回-标签召回 区 Ø 标签体系 术 cn 社 技 g. 能 cu 口语化标签 智 ai 功能 品牌厂商 人群 类别 相似应用 … 工 . ww 打电话 腾讯 3-8岁 塔防 王者荣耀 聊天 网易 00后 G人 w 相机 刀塔传奇 CU AI

10.召回-知识图谱召回 区 Ø 算法PK 术 cn 社 文本建模 知识表示 网络关系 技 g. tranE, transH, DeepWalk, 典型代表 LDA, Doc2vec transD,transR Node2Vec, SNDE 能 cu 智 ai 使用特征 文本 关系 关系 关系敏感度 低 高 中 工 . ww 网络稠密要求 无 高 中 Ø Node2vec • • 随机游走 深度优先&广度优先 G人 w • Skip-gram 描述 CU 显著类型 分类 tag … Ø 优化 • 数据增广:用户行为数据、百科超链接 AI • 文本信息embedding 实体

11.召回-向量召回 区 Ø 目标 术 cn • 捕捉Query和推荐结果之间的语义相关性 社 技 g. Ø 样本选择 能 cu • 同Query下有点击作为正样本,无点击作为负样本 • 归一化操作:超低频删除,超高频subsampling 智 ai • 样本比例,正负样本1:x 工 . ww Ø 模型特征 • Query文本特征:检索切词、语义切词 • • 用户画像特征:年龄、职业、性别 实时信息特征:时间、网络、城市 G人 w Ø 模型参数 CU • 文本特征提取:Bi-Lstm,cnn,dnn,bow • 激活函数:relu,tanh AI • Sample loss:nce_loss,sampled_softmax_loss

12.召回-向量召回 区 术 cn 社 技 g. 能 cu 智 ai Ø 效果分析 工 . ww • 召回 top1精度x% (基线为x%) G人 w CU AI

13. 01 概览 区 召回 术 cn 02 社 用户行为分析 技 g. 标签召回 知识图谱召回 能 cu CONTENTS 向量召回 智 ai 03 排序 工 . 基础相关性模型 ww 点击率预估模型 MAB G人 w CU AI •13

14.排序-基础相关性 区 Ø 文本相关性 Ø DeepMatch 术 cn • titleMatch • 特征:文本特征、切词特征、实体特征、分类特征 社 • docMatch • 模型:分层的DSSM 技 g. • phraseMatch • 数据:有点击数据正样本,无点击数据负样本 能 cu • 同义词 • 语境同义词 智 ai 泰勒级数展开公式 工 . Query表征向量 实体表征向量 ww CNN FC 泰勒 级数 公式 G人 w 泰勒级数 泰勒公式 文本特征 其他特征 实体文本 实体其他 实体文本 实体其他 Query特征 实体特征 实体特征 CU 泰勒斯威夫特 调和级数 数学公式 泰勒公式 傅里叶级数 泰勒公式 无穷级数 公式大全 麦克劳林公式 物理公式 伊丽莎白泰勒 泰勒公式 计算公式 幂级数 几何公式 AI 艾玛沃特森 幂级数 魔方公式 级数 洛朗级数 Query 实体

15.排序-基础相关性 区 术 cn 社 技 g. Q=刘一男曝光何凯文豪宅 score 能 cu 2017何凯文直播 0.993785918 智 ai 新东方2016高考视频百度网盘 0.993198097 工 . 何凯文直播 0.992349207 ww 刘一男曝光何凯文豪宅 0.99219048 新东方英语免费视频 网红考研老师视频 0.991401255 0.991224408 G人 w 何凯文四川 0.99100405 新东方网课视频 0.990925133 CU 文都刘一男个人资料 0.989709318 AI 牛津国际教育 0.989040852

16.排序-CTR预估 区 术 cn Ø 目标 FC 社 FC • 点击率最大化 技 g. 能 cu Ø 策略 seg ner qc1 qc2 … tag seg desc type ntype … tag • 成熟算法匹配业务场景 智 ai • 匹配业务场景,进行模型设计 工 . ctr1 ctr7 ctr30 bm25 … dssm query Entity ww Ø 模型 • 样本选择:有点击为这样本,无点击为样本,设置pv阈值提升样本置信度 • • • • 样本规模:一期一亿正样本,每天增量叠加 模型更新,每天增量训练,提升时效性 G人 w Wide:ctr类特征,文本匹配类特征,召回算法类特征 Deep:文本特征,实体特征,分类特征,不同特征各自取embedding维度 • 特征优化:单特征auc实验 CU Ø 收益 • A/B test对比基线ctr提升x% AI •16

17.排序-MAB 区 Ø 在线实验: 术 cn • TS超参数选择 社 技 g. Succ = click + wide&deep score Fail = 1 + pv – click +平滑因子* (1 – ctr) 能 cu • TS使用Beta随机,不会困在早期的错误里,鲁棒性更强 智 ai • UCB:不仅仅关注收益,还关注Arm的执行次数,收敛速度相对要慢 • 在线对比UCB收敛速度比TS要差一下 工 . ww Ø 收益: • url推荐场景下在线ctr提升x% G人 w • 增加实时日志反馈,ctr提升x% CU AI 17

18.小结 区 召回 排序 术 cn 社 技 g. Deep i2i 1. Query表征学习 UCB 向量召回 2. User表征学习 1. 平衡风险和收益 Deep match MAB 3. 实体表征学习 TS 能 cu 智 ai 主题推荐 Gbdt&LR 1. 概念挖掘 泛化 知识图谱 2. 实体表征学习 Node2vec Ctr预估 1. 点击率最大化 工 . Wide&Deep ww DeepFM 标签体系 1. 标签挖掘 u2i 用户画像 G人 w 2. 3. 兴趣偏好 多样性推荐策略 语义相关性 Dssm 1. 2. Q-Q语义相关性 Q-E语义相关性 Swing 1. 多样性优化 2. 时效性优化 CU click title ratio 精准 i2i ItemCF 3. 长尾泛化 4. Swing特征捕捉 click query ratio Session分析 AI 5. 入度出度特征利用 基础相关性 1. 控制基础的相关效果 phrase match 检索召回 文本相关性 1. 长尾效果补充 同义词

19.AI CU G人 w ww 工 . 智 ai Thanks 能 cu 技 g. 术 cn 社 区