推荐时代的内容理解技术初索

项目背景,兴趣图谱,内容理解,实验效果4个方面

展开查看详情

1.推荐时代的内容理解技术初索 weidongguo(郭伟东) 2019-09-04

2.大纲 • 项目背景 • 兴趣图谱 • 内容理解 • 实验效果

3. 项目背景 技 术 演 进 人工整理 自动化 关键词 知识图谱 何去何从 代 表 公 司 时 代 门户时代 搜索/社交时代 智能时代 划 分 1995年-2002年 2003年至今 2012年至今

4.项目背景 Re comm = P(doc | user) Search = P(doc | query) P(query) = { t1 , w1 , t2 , w2 tn , wn } P(user ) = { t1 , w1 , t2 , w2 tn , wn } P(doc | query) = p(doc | t1 , w1 , t2 , w2 tn , wn ) P(doc | user) = p(doc | t k ) k {1,n} 搜索使用:搜索有完整的query上下文,eg:q=王宝强马蓉离婚,搜索使用如下:p(doc|<王宝强, 马蓉, 离婚>) = p(doc|王宝强) & p(doc|马蓉) & p(doc|离婚) 推荐使用:如果篇章理解仅使用关键词,当用户阅读‘王宝强马蓉离婚’的新闻后,则用户画像会把 ‘王宝强’、‘马蓉’当成两个兴趣点,推荐使用如下:p(doc|王宝强) or p(doc|马蓉),丢失文章上下文

5. 不同用户消费同一篇文章,消费意图可能不 项目背景 同,因此内容理解除了刻画“是什么”,还 需要解决“为什么”,通过用户多次行为才 王宝强? 能确定用户的真实意图 草根明星? 分类:娱乐-明星-内地明星 传统TAG抽取 TAG:王宝强、马蓉、宋哲 马蓉? 关键词:王宝强、马蓉、宋 大学校花? 喆、喊话…… 娱乐八卦? 明星八卦? 王宝强离婚? 明星离婚? 草根明星离婚? 用户为什么会消费

6.项目背景 • 传统NLP技术存在缺陷 • 分类:人工预定义,量级千规模; 优点:结果可控性高,对于运营效率提升较大;缺 点:粒度太粗,难以刻画用户细粒度的兴趣点,推荐不精准; • 关键词:规模庞大,量级可达千万;优点:技术成熟;缺点:绝大多数词不能反映用 户兴趣,需要配合兴趣白名单一起使用,不能解决歧义实体问题; • 实体词:常见实体百万量级;优点:精准刻画用户兴趣,结果可控性高;缺点:推荐 内容单一,容易造成信息茧房 • LDA:量级千规模;优点:技术成熟,可以人工预先选择出有意义的类簇;缺点:规 模与分类相当,粒度太粗,与分类问题相同 • Embedding:量级不受限制;优点:研究热点,有成熟技术;缺点:难以解释,效果 不如end2end模型 • 个性化推荐特点 • 推荐系统需要积累用户模型,因此需要保留完整上下文,语义粒度要完整 • 不同的人消费同一篇文章背后意图可能不同,因此需要有一定的推理能力

7.关注点图谱(AG) 科技 主题分类层 互联网+ 通信 手机 人工智能 一般话题层 机器学 老年人专 智能手机 深度 自动 学习 驾驶 习 用手机 特斯拉 苹果 HTC 实体层 华为P10 model s iphone 7 关联关系 vive眼镜 iphone 爆 iphone 禁 华为发布 事件层 特斯拉撞车 P10 炸 运

8.概念挖掘 Pattern Based 预定义Pattern集合 Query集合 候选Concept (.+?)排名 三国谋士排名 提取 三国谋士 Alignment Based 匹配 ^(.+?)有哪些 省油汽车有哪些 省油汽车 #𝑠𝑒𝑒𝑑_𝑐𝑜𝑛𝑐ep𝑡 Sequence Labeling 融合 𝑠𝑐𝑜𝑟𝑒𝑝𝑎𝑡𝑡𝑒𝑟𝑛 = 匹配 #𝑡𝑜𝑡𝑎𝑙_𝑐𝑜𝑛𝑐𝑒𝑝𝑡 起始词 新增Pattern 候选Pattren 候选Query 结尾词 概念判别器 词性 过滤 (.+?)排行榜 融合 三国谋士排行榜 (.+?)排行榜 独立检索次数 (.+?)好不好 省油汽车好不好 …… Query 点击Title 候选Concept Concept集合 点击 1.盘点最经典的香港僵尸电影 QT对齐 香港僵尸电影 好看的香港僵尸电影 2.推荐几部好看的香港僵尸电 影像(僵尸叔叔)那样的 好看的香港僵尸电影 问题: 1)无训练样本,人工难以标注: Query CRF模型 候选Concept 通过弱监督方法解决冷启动问题, 然后用监督方式提升覆盖 省油汽车排行榜,排名 序列 省油[B] 汽车[I] 排行榜,意外的 抽取 2)粒度合理:——使用UGC数据, 省油汽车 第一的竟然是国产车 标注 是排名第一的竟然是国产车 用户真实表达需求

9.热门事件挖掘 话题检测:相似query聚类 时间序列:时间周期 & 时间序列选择 语义特征:吴亦凡女友 吴亦凡恋情 实体特征:科比退役 姚明退役 热门识别:burst region detection -> 欧拉距离 -> DTW算法 点击特征:点击二部图中共同点击的title BRD:斜率检测,需要分段设计,难维护 5->200 vs 100W->200w sim = α × 𝑠𝑖𝑚𝑠 + 𝛽 × 𝑠𝑖𝑚𝑒 + 𝛾 × 𝑠𝑖𝑚𝑐 BRD:区分不了多峰序列 𝑃 = 1 − (− σ𝑡∈{1,…𝑇} 𝑟𝑡 (𝑢) × 𝑙𝑜𝑔 𝑇 𝑟(𝑢) ) 事件识别:监督分类 特征:词特征 ED:计算两个时间序列距离,时间轴严格对齐,抗干扰能力差:趋 url域名 baike.baidu.com vs news.qq.com 势一致,但是时间平移,距离增大 域名分词 https://china.nba.com/jrnba/ DTW:动态计算时间点的对齐关系,抗干扰能力优秀 …… 事件命名:term Importance + parser NHM NM LETD TED q 方法 (Our) (ED) (BRD) (BRD) q 95.50% 78.00 91.20% 83.00% 吴亦凡女友 q 准确 % 1 47.00% 35.20 41.10% 35.20% 召回 0.5 q % q q q F1均值 63.00% 48.51 56.66% 49.43% 0 q % 及时性 +1.3 h +2 h +1.6 h +1.7 h 热门识别:时 话题检测:相 事件命名:在 预处理:构造 序分析,识别 似Query聚类, 热门话题中识 Query时序数据 热门Query 形成话题 别事件 & 命名

10. 关联关系 篇 搜 方法:利用实体共现计算实体之间关联关系,篇章 章 索 级共现 和 搜索级共现 级 级 哈弗H4 搜索 缺点: 共 共 点击 1)未共现的实体PAIR认为是无关联 现 现 2)共现次数少,通过共现计算关联度偏差大 捷达VS5 搜索 改进: 1)实体向量化,可以计算任意实体PAIR关联度 哈弗 哈弗 凯美 奥迪 本田 2)样本控制:拷贝正样本,提高负采样概率提升 H4 H6 瑞 Q5 雅阁 负采样 实体向量化的精度 𝑓(𝑒)3/4 本田 凯美 奥迪 宝马 ES300 p(e) = 雅阁 瑞 A4L X5 σ𝐸 𝑓(𝑒)3/4 …… …… …… 哈弗 哈弗 奥迪 奥迪 凯美 H4 H6 A4L Q5 瑞 Loss 𝑙𝑜𝑠𝑠=max(d(a,p)−d(a,n)+margin,0) dis(a, p) dis(a, n) 哈弗 哈弗 奥迪 H4 … H6 … Q5 …

11. 文本分类 专家意见 ROOT … … … 汽车 …… 体育 … … … … … … 人机结合 在线分类 … … … 用户行为 max avg avg max TAG TAG 自驾 …… 保养 NBA …… 英超 … … … … 游 TAG FC 聚类 TAG TAG … … … … TAG TAG softmax TAG TAG 自驾 自驾 保养 汽车 战报 球员 花边 … 攻略 游记 维修 召回 战术 动态 八卦 电子 游戏 … 0.8 竞技 … 0.6

12.关键词抽取 TAG TAG TAG TAG TAG Feature 释义 IsEntity 是否实体 EntityType 实体类型 … … … … IsInTitle 是否标题中存在 … TFIDF TF*IDF IsInFirstParagraph 是否出现在首段 IsInLastParagraph 是否出现在尾段 DistributionRatio 分布占比 …… …… TAG-TAG WEIGHT 推特 VN S8 推特:0.80 G2:0.95 RNG:0.75 推特:0.51 G2:0.95 RNG:0.90 GBRank ReRank Result VN:0.93 UZI:0.98 S8:0.30 RNG VN:0.95 UZI:0.98 S8:0.30 LPL:0.12 IG:0.08 JDG:0.08 LPL G2 UZI LPL:0.45 IG:0.18 JDG:0.18 IG IDG

13. 语义匹配 方法1:关系召回(包含上下位关系) 郭嘉->三国谋士 词在概念中 词在文档中 方法2:语义召回 (缺失上下位关系) 的重要度 的重要度 句子级隐式语义召回 耗油5升->省油家用车 σ𝑡∈𝑐 max(0,𝜇 𝑡 𝑐 −𝜇 𝑡 𝑑 ) 词语级显式语义召回 召回的候选太多,计算超时 sim c, d = 1 − σ𝑡∈𝑐 𝜇 𝑡 𝑐 候选召回 候选匹配 … … … 语 候选融合 Interaction … Conv2d + 义 Pooling matrix … … … … 相 似 … 关系召回 … … 语义召回 度 … 线 … 性 实体抽取 … 重点抽取 融 合 文章BOW特征 … 相 实体->概念 语义->概念 似 实体->事件 语义->事件 候选BOW特征 … 度

14.线上效果

15. Q&A Thank you