深度树匹配--下一代推荐技术的探索和实践

深度树匹配——一代推荐技术的探索
b 一代推荐技术的核心挑战
b 推荐—题和技术概要
b 深度树匹配——一代推荐技术探索的再思考

展开查看详情

1.深度树匹配——n一代推荐技术的 探索和实践 朱晗e谨持f 阿里妈妈精准定向广告算法团队

2.b 推荐—题和技术概要 b 深度树匹配——n一代推荐技术的探索 b n一代推荐技术的核心挑战 b 深度树匹配——n一代推荐技术探索的再思考

3. 推荐的典型应用 推荐技术提供用户对某r物品e兴趣f的偏好程度预测能力g基于偏好预测排序输出用户喜好的物品e兴趣f•合。 推荐无处o在

4. 推荐的核心技术—题拆解 以淘宝商品 推荐本质m要完成从全量商品库高效检索CUVK相关商品 推荐u例

5. 推荐技术的发展路径 第一代h基于统计的启发式规则方法 第二代h基于内积模型的向量检索方法 经典代表h基于商品的协同过滤eItLS-47f 经典代表h基于内积的GUutuIL视频向量推荐 1、离线计算相似关系 1、离线学习ItLS 6SILKKPTN(I6) (、获取历史行u (、离线基于I6积量 化构建索引 )、扩展得到相 似PtLS )、实时计算DYLX 6SILKKPTNeD6f, 在索引s找D6最近邻的KrI6 —题ho能全库检索g发现性多样性能力弱 —题h模型能力受限

6.推荐技术的n一代发展方向 思考 打开全库检索的天花板 001 内积检索 优化推荐效果 001 打开模型能力的天花板 全库检索 + 先进模型

7.b 推荐—题和技术概要 b 深度树匹配——n一代推荐技术的探索 b n一代推荐技术的核心挑战 b 深度树匹配——n一代推荐技术探索的再思考

8.思考h全库检索+先进模型 核心—题分析 先进模型 01 C大 + 全库计算 01 >大 性能o可行Ѻ 很难将预估排序环节使用的先进模型放到召回阶段使用? 重新认识h全量检索 !0 全量m的直接计算。 全量检索s检索结构的设计是关键d 01 建立高效检索承载先进模型能力

9.建立高效检索承载先进模型能力 解决思路联想 参考人脑g兴趣m建立从粗到细的组织方式和检索方法 01 建立层次化兴趣树结构实现高效检索 解法h深度树匹配eCXLL-3HYLK 5LLV =HtcO C5=f 树的优势d 1、如何基于树实现高效检索? (、如何在树m做兴趣建模? 1&亿商品库挑CUV1 )、如何构建树? 1&亿次 -1 )&次

10.树结构的高效检索策略 树结构设定 叶子层节点u候选商品 自顶向n兴趣从粗到细 基于层次兴趣树的tUVK快速检索方法 关键点h自顶向n过程s要能快速剪枝 方案h3LHSBLHXcO 逐层展开——每层tUVK子节点•合作u候选 快速剪枝——每层非tUVK节点可停止搜索 挑选依据——用户对树节点的兴趣预估 O((!RUN>!K)g其s>u总商品兴趣r数e即 叶子数fgKu目标推荐r数 核心—题hu什x可以应用这样的检索策略?

11.树m的兴趣匹配建模——最大堆树 思考 检索策略依赖于兴趣建模挑选树节点 兴趣建模核心承载高效的检索策略d 兴趣最大堆 最大堆树n当前层最优CUVK孩子节点的父亲必然 属于m层的父辈节点最优CUVK 最大堆树完美支持了3LHSBLHXcO实现推荐最优 ᝑρit8 >ρit7 > ρit6 >ρit5 CUVK的性质h从根节点递归向n逐层挑选CUVK并 ‫ڞ‬ρsn4 = MAX(ρi7 , ρi8 )/α2 > ρsn3 = MAX(ρi5 , ρi6 )/α2 扩展其子节点直至叶子层

12.最大堆树的模型学习 学习最大堆模型的关键是如何学习s间节点的概率? 思考 思路一g构建结构化正则约束?求解难度大。 思路二g构建特定样本以牵引模型学习来逼近最大堆性质?可以但如何构建? 采样方案 叶子节点h • 用户行u的隐式反馈g建模叶子兴趣概率 s间节点h • 传递性h(叶子)正样本m溯祖先仍u正样本 • 层次全局性h在每一祖先层随机采负样本 叶子层正样本概率u1g其余u&i 正样本m溯祖先概率u1g同层其他节点概率u& 符合最大堆性质

13.全局兴趣判别 模型p索引相互独立 区别于内积模式的模型p检索的强绑定gC5=将模型从检索模 式s独立解放出来g从而在理论m允许任意先进模型的容纳h 1、用户的多峰兴趣分布捕捉g5LLV ITtLXLYt >LtwUXk (、4XUYYITMU特征模型 )、cc 层间模型独立…向全量 层m独立采样赋能模型建立…向全量 判别的能力g解”层间模型约束 最大堆性质+样本牵引解绑模型结构限制g支持容纳各种先进模型d

14.树结构的构建方式 树结构的构建方式 A> 目标 层次 L>1 L>( 粗粒度兴趣 • 叶子节点h对应具体的商品eItLSf 兴趣树 • s间节点h商品的o同粒度聚合体 B>1 B>( B>) B>* 细粒度兴趣 核心目标h如何构建树结构提升检索效果 c 思考 叶子兴趣 IC6=1 IC6=( IC6=) IC6=* IC6=+ IC6=, IC6=- IC6=. (商品) • 树结构决定s间层样本 --1 如何优化样本生成g提升模型能力 • 解法h树结构让s间层样本尽可能可分e相近F对应的标签G也相近f 树初始化方案 • 抓手h用户行u序列产生叶子层样本g用户行u序列s相近tHXNLt PtLS构成的样本g其用 户特征相近g那x其tHXNLt PtLS也应该在树结构m相近e最小共同祖先节点高度尽量低f • 方案h最小化tHXNLt PtLS VHPX在树m的距离 • 结果h相比随机树 ALcHRR + +)

15.深度树匹配算法总结 1、如何基于树实现高效检索? ——3LHSBLHXcO (、如何在树m做兴趣建模? ——兴趣最大堆g样本牵引模型拟合 )、如何构建树? ——让树生成尽可能可分样本 核心—题h 1、算法效果是否足够支撑方案落地? (、工程能力是否足够支撑在线应用?

16.C5=显著性效果 在公开数据•的测试mgC5=大幅超越第一、二代方案的效果。 召回率评估1 层 次 化 结 构更 果 进 了 效 加 促 升 d Method Recall RecallLift 的提 Item-CF2 0.0695 0.00% Youtube product-DNN3 0.0758 9.06% TDM attention-DNN 0.1237 77.98% 发现性评估1-过滤行u过的类目后 Method Recall RecallLift Item-CF2 0.0106 0.00% Youtube product-DNN3 0.0309 191.51% TDM attention-DNN 0.0482 354.72% C5=论文被BI8K55(&1.会议正式收录 1数据来源于C5=论文g基于已公开的阿里妈妈DYLX3LOHvPUX广告数据•评测 (采用•团内部6CA64版本实现 )根据GUutuIL公开论文应用实现

17.C5=在定向广告m的应用 在定向广告q务s位置 User C5=v要应用于定向广告的=HtcO阶段gp现有=HtcO算法一 PHNL EPLw ALquLYt wPtO 起从全量广告库挑选出用户感兴趣的广告传递到AHTk阶段 DYLX 4UTtLxt TDM-Node Match TDM-Shop PHNL EPLw ALYVUTYL UM 2KY TDM-Ad 2K 4HTKPKHtLY (CLTY) (CLTY UM COUuYHTKY) Rank (CTR Predict) 在线结果 2K 4HTKPKHtLY (9uTKXLKY) • 已在线实现千k2K全库检索 • 核心场景累积提升AP=提升(& + Strategy • 覆盖阿里精准广告q务流量.& +

18. C5=在线架构 工程架构 离线+在线一体化架构hDCB+5B+=B 支撑h千亿级样本&十亿级特征的离线训练g十亿量级库的全量在线检索 性能h千k广告库召回COP (Kg单PEn计算量超过+87RUVg整体链路AC增长o超过+ 计算优化h跨层检索g特征共享 架构优化h召回链路并行 在线检索流程 离线训练流程

19.C5=技术总结和思考 推荐的挑战h 从全量商品库高效检索CUVK相关商品 我们的创新h 深度树匹配——全库检索+先进模型 我们的发现h 兴趣最大堆链接了索引、模型、检索整体方案 我们的再思考h n一代推荐技术o止于全库检索+先进模型g而是数据驱 动nl者e索引g模型g检索f的联合优化学习?

20.b 推荐—题和技术概要 b 深度树匹配——n一代推荐技术的探索 b n一代推荐技术的核心挑战 b 深度树匹配——n一代推荐技术探索的再思考

21.n一代推荐技术的核心挑战 目标h 索引结构+模型能力+检索策略的LTK(LTK学习 公共抽象可复用框架的平台性输出 关键—题h q务赋能n的端到端模块联合优化 数据驱动n的端到端模块联合优化

22.端到端模块联合优化 索引结构和模型的联合优化 前提h树结构生成s间层样本标签 关键点h样本错分可能是模型有误g也可能是样本标签有误 解法h优化模型和优化样本标签交替进行

23.q务赋能n的端到端联合优化 …向q务目标最大化召回 w例h广告需要LcVS最大化召回gVctX!IPK 难点hLcVS通过公式得到g没有隐式反馈学习 思路h首先学习叶子层的LcVSg构建LcVS最大堆 关键点h每层待拟合的LcVS样本g由n层模型预估得到

24.平台能力输出 可复用的通用性框架 可学习的树形索引 灵活的层排序模型 可定制的全局优化检索方案 树结构更新 实时更新h新增PtLS挂载到其最相近PtLS的同父亲节点n 准实时更新h增量学习g更新树形索引和层排序模型

25.b 推荐—题和技术概要 b 深度树匹配——n一代推荐技术的探索 b n一代推荐技术的核心挑战 b 深度树匹配——n一代推荐技术探索的再思考

26.重看C5=的技术发展 适时调整的最优动态检索策 ༄ᔱ 略g实现检索效果最优化 全量商品库 高效检索 CUVK相关 商品 构建最优索引以发挥模型最大 建立深度用户兴趣模 模型 索引 能力g实现检索快速和准确 型g支撑检索优化 数据驱动n的l者联合优化学习g实现推荐结果的效果最优化

27.重看C5=的技术发展 从算法链路的视角思考 从互联网v流q务思考 从孤立优化到协同优化 技术和q务横向扩展

28.开放合作计划 “独乐乐o如众乐乐ag我们相信优秀的技术o单是 赋能计划 先进的g更应该是共享的 建立产q合作g推进C5=作un一代推荐技术在各rq务和场景的落地g帮助各r合 作伙伴提升q务效果e先期已在外部门户新闻网站落地g4CA提升达+& f 合作计划 建立学研合作g针对C5=…向n一代推荐技术发展的难点和痛点进行和学校、研究“所等的交 流探讨g共同进行学术探索和论文发表e已p清华大学启动2PX研究计划f 开源计划ehttps://github.com/alibaba/x-deeplearningf 建立公开共享的开源技术合作框架g以现有C5=核心代码开源u基础g吸引更多推荐领域志士 仁人投入技术探索和算法研究g促力共享发展。 (&1.%1((预计) C5=二期 (&19%&)(计划) 完成简单在线BLXvPTN系统的 开源g支持基础树检索 C5=一期 C5=l期 随F5L一起开源g支持 t富和完善在线BLXvPTN系统 离线训练和预测 的开源g具备支持十亿规模 2019.01(ᦇ‫)ښ‬ 超大候选的检索能力

29.