认知概念图谱构建与应用

张宁豫(凌羽),现负责阿里巴巴创新事业群神马搜索认知概念图谱构建与应用,驱动结构化知识在自然语言处理场景的落地。 在加入阿里巴巴之前,他曾是之江实验室研究员, 并负责知识图谱构建与跨媒体相关研究 。他获得了浙江大学软件工程本科学位(2012)和浙江大学计算机博士学位(2017)。他的研究领域包括知识图谱、自然语言处理、少样本机器学习等,曾在WWW、EMNLP、NAACL等顶级会议发表多篇论文。

展开查看详情

1. AI CU G人 w ww 工 . 张宁豫(凌羽) 智 ai 创新业务事业群 能 cu 技 g. 术 cn 社 区 认知概念图谱构建与应用

2. 对话 AI CU G人 w ww 工 . 智 ai 阅读理解 能 cu 技 g. 术 cn 社 区 从感知到认知 翻译 2

3. • • • • 展望未来 业务应用 概念图谱 内容概要 AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 内容介绍 3

4.内容概要 我们要认知什么 省油的车(认知概念) Embedding/关键词 区 术 cn 社 技 g. Query=省油的车有哪些? 能 cu 智 ai 丰田RAV4 工 . ww ??? (概念实例) G人 w CU AI 4

5.内容概要 解决用户什么问题 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww G人 w CU AI 大千世界需要对万物进行深度认知,并可形成一个个可被应用的网 5

6. 内容概要 AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 搜索需求的概念化 6

7.内容概要 什么是认知概念 • 认知概念(Concept)是人类在认识过程中,从感性认识上升到理 性认识,把所感知的事物的共同本质特点抽象出来的一种表达。 区 术 cn 社 认知概念不是非黑既白的,是认知场景下的符合实例本质的概率 技 g. 能 cu 分布。 智 ai 工 . ww G人 w • 在通用搜索场景下: CU – 阿里巴巴 isA 0.9 互联网公司 AI 0.1 虚拟人物 – 丰田RAV4 isA 0.7 省油的车 0.3 热门SUV – 文章 isA 0.8 艺人 0.2 文学作品 7

8.内容概要 站在巨人的肩膀上 构建成本高 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww 规模有限 G人 w CU AI 时效性 E-commerce ConceptNet 8

9.内容概要 愿景 • 建设具备学习能力、推理能力、验证能力的全方位认知概念图 谱体系 区 术 cn 社 技 g. 技术需要 业务需要 能 cu 智 ai 工 . 认知智能 理解内容 ww G人 w CU AI • 我们的追求 – 结合人工智能与人类智能,建设深度认知用户场景的认知概念图谱 – 结合搜索行为计算与图知识推理能力,实现搜索推荐的认知智能时代 9

10. • • • • 一些思考 业务应用 概念图谱 内容概要 AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 内容介绍 10

11. 概念图谱 阿里巴巴认知概念图谱 Alibaba Cognitive Concept Graph level1 concept 机构 人物 isA:1 isA:1 isA:1 虚拟人物 艺人 level2 concept 公司 isA:1 isA:0.8 isA:1 区 术 cn isA:1 社 不招人喜欢的梁山好汉 拥有迷人笑容的美男子 技 g. level3 concept 互联网公司 能 cu isA:0.8 isA:0.8 阿拉伯小说人物 智 ai isA:0.8 isA:0.9 刘德华 工 . instance ww isA:0.1 宋江 古天乐 阿里巴巴 G人 w entity CU 古天乐 刘德华 AI 阿里巴巴 宋江 创始人 出演 CEO 出演 角色 property 马云 水浒传 寻秦记 寒战 出生年 张勇 1964年 同事 11 认知概念图谱基于知识图谱,旨在关联真实世界中存在的各种事物

12. 构建认知概念图谱的挑战 概念图谱 • 知识图谱有层次的类型体系(level1/2) 交通工具 区 • 缺乏细粒度的认知(level3) 术 cn 社 技 g. • 挑战: 能 cu 智 ai – 如何挖掘细粒度的概念 汽车 工 . ww G人 w – 如何关联概念和实例 – 如何挖掘非实体实例 CU AI 丰田RAV4 保时捷911 12

13. 概念图谱 认知概念图谱技术架构 业务层 神马搜索 夸克 信息流 智能化 区 术 cn 社 技 g. 在线服务层 tair pangu zeus ha3 能 cu 智 ai 运营 工 . ww G人 w 概念抽取 层次构建 知识校验 封禁 离线构建层 实例挖掘 CU 数据融合 置信度计算 AI 涉黄 涉暴 数据层 知识图谱 搜索日志 网页文档 13

14. 细粒度概念 认知概念图谱数据流程 非结构化 实例/概念 区 认知智能 术 cn 网页日志文本 社 赋能业务 技 g. 认知概念图谱 能 cu 智 ai ` 工 . ww G人 w CU 结构化 AI 知识图谱 实例/概念

15.细粒度概念 概念抽取 Ø 目标:从大量的文本语料基于序列标注提取出高质量细粒度概念 Ø 难点 ü 样本生成 区 术 cn 社 技 g. ü 序列标注切词错误 能 cu ü 文本噪音大,缺失数据多 智 ai 工 . Ø 方法 ww G人 w 基于模版 CU 基于序列标 基于对齐的 AI 方法 注方法 方法 搜索日志 搜索日志 搜索日志 基于模版匹配 基于文本序列 基于query-title bootstrap迭代召回 标注模型 N-gram对齐挖掘 15

16.细粒度概念 基于模版的Bootstrap概念抽取 新模版 待选模版 匹配的query 区 过滤 匹配 术 cn 哪款XXX性能好 哪款XXX性能好 哪个省油的汽车性能好 社 技 g. XXX好不好 拍照手机好不好 能 cu 智 ai 工 . ww G人 w 模版合并 匹配新query CU 预定义模版 AI 匹配的query 待选概念 匹配 抽取 XXX排行榜 省油的汽车排行榜 省油的汽车 十大XXX 十大拍照手机 拍照手机 16

17.细粒度概念 基于Lattice-LSTM的序列标注模型 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww G人 w CU AI Chinese NER Using Lattice LSTM ACL2018 17

18. 细粒度概念 基于BERT+CRF的序列标注模型 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww G人 w CU AI BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 18

19.细粒度概念 BERT预训练方式 Ø 目标: 存在数据分布差异,基于1亿大搜query重新训练 区 Ø 算法优化 术 cn 社 技 g. 去掉预测下一句的loss 能 cu ü 智 ai ü 使用sampled_softmax_loss加速训练 工 . ww ü 基于ner粒度(实体/短语粒度)分词,基于词训练bert G人 w ü 预测时oov词向量取使用上下文向量预测出的向量结果 Ø 下游任务 CU AI ü 序列标注 (sequence labeling) ü 细粒度实体/概念分类 (entity typing) 19

20. 基于对齐的方法 细粒度概念 • 肠胃感冒->肠胃疾病症状 • 挑战 区 术 cn 社 技 g. – query信息过少 能 cu 智 ai – title和doc中包含了丰富的信息 工 . ww G人 w 搜索文本 高点击标题 CU AI 对齐 1.肠胃疾病症状主要有 肠胃感冒症状有哪些 2.肠胃感冒夏天常见疾病 20

21.关联概念和实例 层次构建 •知识图谱类型 歌手 isA 人物 level1/2 关联 •预先定义关联 区 术 cn 社 技 g. 能 cu 宋江 isA 虚拟人物 智 ai 宋江 isA 不招人喜欢的梁山好汉 •基于传递关联 工 . ww level2/3 G人 w •基于概率推断 不招人喜欢的梁山好汉 isA 虚拟人物 CU AI •基于规则 XXX歌手 isA 歌手 Level3/实例 •基于聚类 If A isA Concept and sim(A,B)<epsilon: •基于模型 B isA Concept 21

22. 短语挖掘 非实体实例 Ø 目标:在于从大量的文本语料中提取出非实体实例 ü 解决切词错误问题 ü 解决领域词问题 区 ü 提升概念实例覆盖率 术 cn 挖掘 链接 社 Ø 难点 技 g. 发烧39度怎么办 发烧39度 发烧39度 isA 症状 能 cu ü 标记数据难 智 ai ü 长尾领域短语 工 . ww ü 切分短语难 G人 w 基于无监督 基于监督学 基于远监督 方法 CU 习的方法 的方法 AI 搜索日志 搜索日志 搜索日志 规则模版、TopMine SegPhrase AutoPhrase 22

23.非实体实例 基于模版的挖掘 • 从数据中构造模版 – 「新生儿急性鼻炎」 可以映 区 术 cn 社 射为「特殊人群 + 限定性 技 g. 修饰词 + 疾病」 能 cu 智 ai • 人工定义模版 工 . ww – 「如何治疗 + 疾病」or 「疾病 + G人 w 该如何治疗」 CU AI 23

24.非实体实例 基于TopMine的挖掘 • Why? – 低频不友好 区 术 cn 社 – 噪音 技 g. 能 cu • 基于频繁模式和统计 智 ai 工 . – 抽取短语文本分割 ww G人 w – 根据topic约束文本 CU AI 24

25.非实体实例 基于SegPhrase的有监督挖掘 • Why? – TopMine的方法是无监 督的 区 术 cn 社 – 高质量的短语是可以优 技 g. 化分词结果的,而高质 能 cu 量的分词结果可以优化 智 ai phrase抽取 工 . ww • 方法 G人 w – 人工的去选择一些高质 量的短语去构造分类器 CU AI – 在一些特定的领域则需 要一些专业领域人士对 领域内的数据进行筛选 25

26.非实体实例 基于AutoPhrase的远监督挖掘 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww • 特点 G人 w – 独立于领域 – 只需要很少的人力或语言分析 CU AI • 方法改进 – 增加bert字向量作为分割特征 – 根据score阈值进行过滤 26

27. 知识校验 知识校验 Ø 目标:输入给定文本,判断 是否为概念/实例 省油的车 区 最高的山 Ø 难点 术 cn 社 技 g. ü 如何判定概念/实例 能 cu 智 ai ü 如何获取标注数据 工 . ww Ø 方法 希望 G人 w ü 简单规则如:过滤掉同时有“文字 词汇”、“词汇”等概念 CU ü 主动学习标注文本,基于gbdt对不 AI 是概念的文本进行过滤 省油的车 27

28. • • • • 展望未来 业务应用 概念图谱 内容概要 AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 内容介绍 28

29.业务应用 意图识别 • 痛点 地球末日生存回收台怎么用 – 文本内容理解难 低频词 意图样本少 – 搜索意图多缺乏足够标记数据 区 术 cn 社 • 难点 技 g. 能 cu 概念知识 智 ai – 如何引入概念知识 工 . ww – 如何减少噪音 地球末日生存: 游戏 回收台: 游戏道具 G人 w CU AI 概念知识 文本数据 业务模型 搜索意图:游戏攻略 29