- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
白玉兰开源PPT
内容介绍
在自然语言处理中,自然语言推理包含两个基本过程——感知和推理。感知包含从原始文本中挖掘基本信息(如实体、关系等)的一系列过程,而推理是在所挖掘的信息基础上,基于已有的规则或者知识推断符合逻辑的结论。目前,主流的预训练语言模型在感知阶段已经取得了突破性的进展,但其推理能力仍然备受质疑。导致模型缺乏推理能力的主要原因在于数据中的统计偏差导致模型绕过了复杂但正确的推理路径,而选择简单的虚假相关性做出看似正确的决策。其结果就是模型并不具有鲁棒性和泛化能力。针对这个问题,我们引入外部约束规则并采用了“先优化后修正”的神经符号框架。具体而言,神经网络负责预测推理路径和决策,而符号系统通过引入的外部约束规则修正神经网络的优化方向,从而修正决策结果。在执行的过程中,我们进一步提出了一种弱监督神经符号学习的方法,通过所构造的马尔可夫链蒙特卡洛采样方法避免了遍历规则集所带了的计算复杂度。实验结果表明,我们设计的方法能够有效提升模型的推理能力,从而保证模型的鲁棒性和泛化能力。
关于讲师
田济东, 上海交通大学人工智能研究院博士生,指导老师是金耀辉教授。主要研究兴趣是自然语言处理中的逻辑推理,神经符号学习等,目前已在EMNLP,AAAI等会议上发表一作论文2篇。.
评议人
许岩岩,上海交通大学人工智能研究院长聘教轨副教授、博士生导师。重点以交叉学科视角,研究城市复杂系统中的人类移动行为、人类与建成环境的交互关系,并以数据驱动的方式对城市系统进行建模与优化。针对城市尺度上的交通拥堵、电力网络、设施规划等重大问题提出了一系列创新解决方案。研究成果以第一作者发表于Nature Energy、Science Advances等国际顶尖期刊,被Nature Asia、彭博社等多家国际媒体报道。
展开查看详情
1 .基于弱监督神经符号学习 的自然语言推理 田济东 上海交通大学
2 . 研究背景 自然语言理解中有这样一类问题 任务描述:出自CLUTRR[1],问答类机器阅读理解类,通 任务描述:出自LogiQA[2],选择类机器阅读理解类,通过给定 过给定文本所提供的亲属关系,推断多跳亲属关系。 的文本段落所提供的文本,通过逻辑演绎得到最优的选项。 感知过程: 推理过程: 从文本文本中提取决策相关 以感知到的基本语句或者命 的信息,如关系、实体等,并 题,结合预定义的逻辑规则和 组合成简单的语句或命题。 演绎方式完成决策。 [1] Sinha et al. CLUTRR: A Diagnostic Benchmark for Inductive Reasoning from Text. EMNLP 2019. [2] Liu et al. LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning. IJCAI 2020.
3 . 研究背景 自然语言推理 自然语言推理 要素 实例 实体 Kristin, Justin, Carol Son(Justin, Kristin), 感知 关系 Mother(Carol, Kristin) 问题 ? (Carol, Justin) Son(x, y) → Mother(y, x), 规则 Mother(x, y) ∧ Mother(y, z) → Grandmother(x, z) 推理 Son(Justin, Kristin) → Mother(Kristin, Justin) ∧ Mother(Carol, Kristin) → 逻辑 Grandmother(Carol, Justin)
4 . 研究背景 自然语言推理框架 无监督学习 监督学习 半(弱)监督学习 端到端的模型,通过标签构建x 多任务模型,同时有监督的学 神经符号模型,基于预测结果和已 描述 与y之间的映射 习逻辑过程和预测结果 知规则构建合乎逻辑的映射 输入 文本/图片 x 文本/图片 x 文本/图片 x 标签 预测结果y 逻辑过程z 和 预测结果 y 推理规则R 和预测结果y 1、输入输出简单,模型易于实 1、模型性能具有一定的提高; 现; 1、模型性能大幅度提高; 优势 2、模型具有可解释性; 2、在一些逻辑简单的问题中表 2、模型具有可解释性。 3、不需要大量的人工标注。 现不错。 1、模型本身难以学习到逻辑结 1、如何定义有效的推理规则(逻辑 1、如何定义有效的逻辑过程? 劣势/挑战 构,易于受到虚假相关性干扰; 过程)? 2、需要大量人工标注。 2、模型不具备可解释性。 2、神经-符号结构有效融合。
5 . 问题定义 弱监督自然语言推理 • 最终的目标函数: • Maximize 𝑝𝜃 𝑦 𝑥, 𝑅 = σ𝑧 𝑝𝜃 (𝑦, 𝑧|𝑥, 𝑅) • 已知:观测数据𝐷(𝑥, 𝑦)以及推理规则集合𝑅。 = σ𝑧 𝑝(𝑦|𝑧, 𝑅)𝑝𝜃 (𝑧|𝑥, 𝑅) • 求解:模型𝑓𝜃 ,满足 ∀ 𝑥, 𝑦 ∈ 𝐷 𝑓𝜃 𝑥, 𝑅 = 𝑦 • Conditioning on 𝑥 ⊥ 𝑦 𝑧) • 𝑥 - 原始输入文本(上下文以及问题) • Log-likelihood: • 𝑦 - 正确的预测结果参考值 ∇𝜃 𝑝𝜃 (𝑦|𝑥,𝑅) • 𝜃 - 模型参数 ∇𝜃 𝐿 = ∇𝜃 log 𝑝𝜃 𝑦 𝑥, 𝑅 = 𝑝𝜃 (𝑦|𝑥,𝑅) ∇𝜃 σ𝑧 𝑝(𝑦|𝑧,𝑅)𝑝𝜃 (𝑧|𝑥,𝑅) = 𝑝𝜃 (𝑦|𝑥,𝑅) 𝑝𝑦 𝑧, 𝑅 = σ𝑧 ∇𝜃 𝑝𝜃 (𝑧|𝑥, 𝑅) 𝑝𝜃 𝑦 𝑥, 𝑅 𝑝(𝑦|𝑧,𝑅) = σ𝑧 𝑝 (𝑧|𝑥, 𝑅)∇𝜃 log 𝑝𝜃 (𝑧|𝑥, 𝑅) 𝑝𝜃 (𝑦|𝑥,𝑅) 𝜃 • 扩展:引入中间的逻辑链𝑧作为辅助变量。 𝑝𝜃 𝑦, 𝑧 𝑥, 𝑅 = σ𝑧 ∇𝜃 log 𝑝𝜃 (𝑧|𝑥, 𝑅) 𝑝𝜃 𝑦 𝑥, 𝑅 • 目标改写: ∀ 𝑥, 𝑦 ∈ 𝐷 𝑧 = 𝑓𝜃 𝑥 , 𝑅 ⊢ 𝑧, 𝑅 ∪ 𝑧 ⊨ 𝑦 • ⊢ - 语法后承 = σ𝑧 𝑞(𝑧|𝑥, 𝑅, 𝑦) ∇𝜃 log 𝑝𝜃 (𝑧|𝑥, 𝑅) • ⊨ - 语义后承 = 𝔼𝑧∼𝑞(𝑧|𝑥,𝑅,𝑦) [∇𝜃 log 𝑝𝜃 (𝑧|𝑥, 𝑅)]
6 . 问题定义 神经符号系统 • 从神经符号系统来看概率𝑞: • 𝑝𝜃 (𝑧|𝑥) 通过神经网络学习初步的推理; 0, 𝑧 ∉ 𝑍 • 待求解概率: 𝑞 𝑧 𝑥, 𝑅, 𝑦 = ቐ 𝑝𝜃 (𝑧|𝑥) ,𝑧 ∈𝑍 • 符号系统𝑅用于调整推理的过程; σ ′ 𝑝𝜃 (𝑧 ′ |𝑥) 𝑧 ∈𝑍 • 最终调整后的伪标签进一步优化神经网络。 • 𝑍 = 𝑧|𝑅 ⊢ 𝑧, 𝑅 ∪ 𝑧 ⊨ 𝑦 • 例子:十标签分类任务: • 从自然语言推理的角度来看概率𝑞: • 神经网络给出一种概率分布; • 𝑝𝜃 (𝑧|𝑥) 可以大致视为感知过程,该过程主要通过 • 规则系统给出另一种概率分布; 神经网络实现,不涉及规则集合𝑅 ; • 将两者叠加后得到的概率分布视为最终的概率分布; • 𝑞可以视为在𝑝𝜃 (𝑧|𝑥) 基础上的推理过程,通过𝑅和 • 叠加后的分布与神经网络的分布具有显著差异。 感知到的𝑧进行推理; 0.4 0.8 • 实际上,感知过程和推理过程并没有明显的区分, 0.6 0.3 0.4 0.2 因为𝑞最终用于优化𝑝𝜃 (𝑧|𝑥),最终需要神经网络 0.2 0.1 同时完成感知和推理过程。 00 -0.2 11 33 55 77 99 -0.1
7 . 研究方法 马尔可夫蒙特卡洛采样(MCMC) • 观察概率𝑞 𝑧 𝑥, 𝑅, 𝑦 ,难点在于计算σ𝑧 ′ ∈𝑍 𝑝𝜃 (𝑧 ′ |𝑥) ; • 通过采样的方法可以避免对于求和的计算: • 采用MCMC中的Metropolis-Hastings采样方法; 𝑝𝜃 (𝑧|𝑥) • 设定最终的静态分布𝜋(𝑧) = σ ′ 𝑝𝜃 (𝑧 ′ |𝑥) ,𝑧 ∈ 𝑍; 𝑧 ∈𝑍 • 构造相应的建议分布𝑄; • 贪心抽样初始化𝑧 • 按照分布𝑄采样初始的𝑧 ′ ; 𝜋 𝑧′ 𝑄 𝑧 𝑧′ • 计算接受率𝛼 𝑧, 𝑧 ′ = min{ , 1} 𝜋 𝑧 𝑄 𝑧′ 𝑧 1, 𝑧 ∉ Z ′ =ቐ 𝑝 𝑄 𝑧𝑧 𝑧 ′ |𝑥 min ′ ,1 ,𝑧 ∈ 𝑍 𝑝 𝑧|𝑥 𝑄 𝑧 𝑧 • 按照接受率决定是否要接受𝑧 = 𝑧 ′ ; • 重复以上过程𝑛次。
8 . 研究方法 马尔可夫蒙特卡洛采样(MCMC) • 建议分布𝑄的构造: • 直接构造建议分布𝑄仍然要计算所有可能的规则; • 采取一种间接构造𝑄的方法: • 按照初始𝑧构造推理树; • 修改根节点为最终推理的答案; • 以推理头为key节点,搜索所有能够推出key的 规则,并均匀采样; • 通过采样的规则更新key的子节点; • 以采样后的子节点构成新鲜的key集合,并重 复上面均匀采样的过程,直到将所有节点都替 • 难以直接写出𝑄,但可以直接计算𝑄的比值,从而计算𝛼: 换完成; 𝑄 𝑧 𝑧′ ς ℎ∈{ℎ′𝑘 |ℎ′𝑘 ≠ ℎ𝑘 } 𝐺(ℎ,𝑅) • = 𝑄 𝑧′ 𝑧 ς ′ 𝐺(ℎ′ ,𝑅) • 将推理树恢复成𝑧的形式,得到新的样本𝑧 。 ′ ℎ ∈{ℎ𝑘 |ℎ′𝑘 ≠ ℎ𝑘 } • 𝐺(ℎ, 𝑅) 表示𝑅中以ℎ为推理头的规则的数目。
9 . 研究方法 概率逻辑正则项(PLR) • PLR基础: • 我们采用逻辑半环构建概率之间的关系; • MCMC采样带来的问题: • 方法类似于DeepProbLog[3]; • 弱监督学习生成的伪标签带有噪音,特别在规则复杂任 • 如果 𝑏1 ∧ 𝑏2 → ℎ, 则逻辑半环为: 务中,伪标签可能会使得模型欠拟合。 𝜕𝑝(ℎ|𝑥) 𝜕𝑝(𝑏2 |𝑥) 𝜕𝑝 𝑏1 𝑥 • 解决方案:概率逻辑正则项 𝑝(ℎ|𝑥), 𝜕𝜃 = (𝑝 𝑏1 𝑥 𝑝 𝑏2 𝑥 , 𝑝(𝑏1 |𝑥) 𝜕𝜃 + 𝑝(𝑏2 |𝑥) 𝜕𝜃 ) • 思路: • PLR: • 已知两条规则: • ℛ = σℎ∈𝐻 𝑀𝑆𝐸 (ς𝑏∈𝐵 𝑝 𝑏 , ℎ(𝑏)) • 𝑏1 ∧ 𝑏2 → ℎ ; 𝑏3 ∧ 𝑏4 → ℎ • 其中 𝐵 = {𝑏|𝑏 ∧ 𝑏 ∗ → ℎ, 𝑏 ∈ 𝑧 ′ } ; • 按照文本应该提取到𝑏1 ∧ 𝑏2 → ℎ ,但采样采到的是𝑏3 ∧ 𝐻 = ℎ 𝑏 ∗ → ℎ, ℎ ∈ 𝑧 ′ 。 𝑏4 → ℎ ; • Loss Function: • 按照错误标签我们优化𝑝 𝑏3 𝑥 = 1, 𝑝 𝑏4 𝑥 = • ℒ = 1 − 𝜆 𝐶𝐸 𝑧, 𝑧 ′ + 𝜆 ℛ 1, 𝑝 ℎ 𝑥 = 1; • 𝜆 为超参数。 • 三个概率之间没有关系,PLR则是建立三个概率的关系。 [3] Manhaeve et al. DeepProbLog: Neural Probabilistic Logic Programming. NIPS 2018.
10 . 实验 数据集 • CLUTRR[1]:基于关系推理的自然语言理解 • HWF[5]:手写识别(图像) • 统计信息 • TBD[4]:时序关系抽取 [4] Cassidy, et al. An Annotation Framework for Dense Event Ordering. ACL, 2014. [5] Li et al. Closed Loop Neural-Symbolic Learning via Integrating Neural Perception. ICML, 2020.
11 . 实验 基线模型 • End-to-end模型 • DeepProbLog模型[3]: • 有监督的神经符号模型; • 采用了逻辑半环的方式构建输入之间的逻辑关系 • NGS模型[5]: • 弱监督的神经符号模型,与本工作有类似之处。 • Pretrained模型: • End-to-end模型在HWF数据集上失效; • 分别训练感知模块和推理模型作为pretrained模型替代 End-to-end模型。
12 . 实验 TBD和HWF实验结果 • TBD • 数据集特征: • TBD数据集的感知过程相对复杂(理解语义),但 推理过程简单(规则集小); • HWF数据集的感知过程简单(数字识别),但推理 过程复杂(数学运算离散化,规则集合很大)。 • 结果分析: • WS-NeSyL在两个数据集上都有良好的性能,在 • HWF TBD上提升将近10个百分点,而在HWF上提升将近 4个百分点; • 观察基线模型,NGS和DeepProbLog在两个数据集 上的性能差异很大,在感知简单的任务中NGS能够 有更好的效果,而在推理简单的任务中 DeepProbLog则具有更好的性能; • PLR的引入(𝜆)在两类任务中的影响差异很大。
13 . 实验 CLUTRR(Generalization)实验结果 • 数据集特征: • 结果分析: • CLUTRR数据集包含Generalization和Robustness两类: • WS-NeSyL在Generalization上的性能胜过其他的基准模型, • Generalization数据集在低跳数据上训练,在高跳数 性能的提升主要来源于泛化性(Out)测试; 据上测试,侧重于推理过程; • NGS模型在k=2,3时,明显产生了过拟合的现象(In结 • Robustness数据集则是在蕴含特定的信息(是否带 果很高,Out结果很低),究其原因是因为CLUTRR存在 有噪音,带有什么类型的噪音)的数据集上训练, 非确定推理规则,NGS难以处理不确定性; 在其他类型的数据上测试,侧重于感知过程。 • PLR对于Generalization的性能提升不显著。
14 . 实验 CLUTRR(Robustness)实验结果 • 结果分析: • WS-NeSyL在Robustness上的性能胜过其他的基准模型; • PLR在Robustness上带来的性能提升相对显著,随着超参数𝜆(𝜆 < 1)增大,模型的性能进一步提升。
15 . 分析 PLR对于实验性能的影响 PLR分析 (CLUTRR) • 折线图: G1 G2 R1 R2 R3 R4 • 以CLUTRR为例; 9 • 以超参数lambda作为横坐标,性能相较于无PLR实验的增量为纵 8 坐标绘制折线图。 7 • PLR分析: 6 • 折线图反映出相较于Generalization实验,PLR在Robustness实验上 会带来显著的增益。同时,在Robustness实验上,随着PLR的比重 性能增量 5 增大,增益越来越显著; 4 • 我们推断PLR主要有益于感知优先的推理任务。通过分析,我们 3 发现PLR是在保证逻辑有效的基础上提供对于感知信息的内在结 2 构约束,因此PLR一定程度上缓解感知错误,而非推理过程中的 1 逻辑错误,因此PLR在感知优先的任务中能够带来更多增益,而 0 在推理优先的任务中不会产生明显效果,甚至会带来负向增益; 0 0.2 0.5 0.8 超参数(LAMBDA) • TBD和HWF的实验同样作证以上分析。
16 . 分析 案例分析(模型的优先度) • 模型的优先度分析: • 根据错误的推理路径预测出了正确答案; • 推理路径错误的原因是感知的错误,而推理过程都是 符合逻辑的。 • 聚焦感知错误,我们可以发现模型提取到的信息(带 数字编号的部分)都是文本中出现的,与目标中的信 息也是一直的,但是组合方式不同,表明模型并未真 正理解文本的含义从而正确的感知信息。 • 通过案例分析,我们可以得出结论:模型优先确保的 是逻辑的一致性,从而保证满足规则的约束;其次模 型确保感知到的信息量与原始输入一直。 • 因此,我们提出的模型确实能够缓解因着逻辑不一致 导致的虚假相关性,但无法在逻辑一致的前提下保证 模型感知的正确性(就如案例所展示的虚假相关性)。
17 . 讨论与结论 模型对比 / 结论 • WS-NeSyL VS NGS: • WS-NeSyL VS DeepProbLog: • WS-NeSyL最初的灵感来源于NGS,二者都是弱监督下 • WS-NeSyL为弱监督模型,DeepProbLog是监督模型; 的神经符号模型; • 比较PLR机制与DeepProbLog,我们可以发现PLR是对模 • 在框架层面,NGS采用了神经网络和符号模型串联的框 型的局部信息进行更精细化的约束,而DeepProbLog则是 架,其基础为确定性推理;而WS-NeSyL采用的是以神 对于整个推理过程构造了全局目标函数。 经网络为主的结构,符号系统只用于优化神经网络,其 • 结论: 基础为概率推理。后者其实是一个更加泛化的方法,能 • 本工作给出一种看待自然语言推理(机器认知)的一种 够兼容更多的模块(如PLR),同时能够处理更加一般 视角:信息提取组织(感知)+知识、逻辑约束调整(推 的规则约束(如推理中的不确定性)。 理)。通过该视角设计实验能够有效的阻断虚假相关性, • 从方法的角度,NGS采用了一种近似的方法构造调整后 提升模型的可解释性和泛化能力。 的概率分布,在规则复杂的场景下方法就不再适用;而 • 基于该视角,我们提出一种弱监督神经符号模型,通过 WS-NeSyL则是直接构造了符合概率分布的采样器,因 采样的方式实现了后期逻辑约束对于神经网络的调整。 此能够适用不同的自然语言推理任务(乃至扩展到图像 • 当然,WS-NeSyL只是一个初步尝试,在真实的自然语 上),实验结果也能说明两者在复杂任务上的差异。 言推理场景中仍然具有很大的局限性。
18 . 工作延展:机器认知 思路:反绎(Abduction) • 认知方法: • 反绎学习[7]: • 归纳:从特定的观测数据中衍生出一般 性的、可泛化的结论,该结论可以是对 的也可以是错的。数据驱动的机器学习 一般的进路就是归纳。 • 演绎:从一般性的知识或者规则推导出 特定的结论,一般的推理过程都是演绎 的过程。 • 反绎[6]:从不完善的观测数据中推断对 于数据最可能的解释,这个过程一般包 含不完善的知识、规则。反绎学习的结 果是从不完善的观测、知识和规则中构 建出新的规则,用于解释观测数据。 [6] Dai et al. Bridging machine learning and logical reasoning by abductive learning. NeurIPS, 2019. [7] Zhou. Abductive learning: Towards bridging machine learning and logical reasoning. Science China Information Sciences, 2019, 62(7): 76101.
19 . 工作延展:机器认知 Prediction 思路:反绎(Abduction) Data Classifier Pseudo Label • WS-NeSyL VS 反绎学习: • WS-NeSyL本身可以视为一个反绎过程。与反绎学习的差异 Optimization 如右图所示,可以概括为对于伪标签调整的方式不同。 • 反绎的实质:知识/规则对于数据驱动模型预测分布的调整。 Abduced Minimal Knowledge/ 0, 𝑧∉𝑍 Lable Inconsistency Rule 𝑞 𝑧 𝑥, 𝑅, 𝑦 = ൞ 𝑝𝜃 (𝑧|𝑥) Abduction Reasoning ,𝑧 ∈ 𝑍 σ𝑧 ′ ∈𝑍 𝑝𝜃 (𝑧 ′ |𝑥) • 反绎学习的调整方式: Prediction • 不需要给出𝑞,而是通过定义不一致性来进行调整,调 Data Classifier Pseudo Label 整的方法是贪心采样; • 确定性反绎方法。 Optimization • WS-NeSyL: • 根据给定的𝑞直接对分布进行调整,调整方法是根据概 Abduced Knowledge/ Distribution 率进行采样; Lable Rule Sampling Reasoning • 概率反绎方法。
20 . 工作延展:机器认知 思路:反绎(Abduction) • 反绎能够广泛的应用于给定知识/规则的认知过程中: 生物/化学合成 几何证明
21 . 工作延展:机器认知 基础:知识(Knowledge / Commonsense)、逻辑(Logic) • 模型利用知识和逻辑的主要难点:1)知识的构建和存储;2)逻辑的表达形式。 • 两类方法: 显式方法 隐式方法 通过知识库构建知识(如ConceptNet);通过具 描述 将知识和逻辑编码到向量空间中(如Comet) 体的形式表达逻辑(如Description Logic) 1、形式简单,易于理解; 1、能够存储大量的知识和逻辑; 优势 2、可以直接调用知识和逻辑进行决策,基本不 2、适配目前主流的大规模预训练模型。 会存在不确定性。 1、知识存储的体量往往比较小,调用受限于知 1、知识和逻辑的存储于隐空间往往难以解释; 识库的构建方式; 2、知识和逻辑的调用具有不确定性; 劣势/挑战 2、逻辑的应用受限于逻辑形式,难以处理复杂 3、目前缺少方法能够有效的调用知识,并利用逻辑进 逻辑的任务; 行推理。 3、不具有泛化能力
22 . 工作延展:机器认知 基础:知识(Knowledge / Commonsense)、逻辑(Logic) • 是否能够结合显示和隐式方法引导隐空间的学习? 显式模型 基于隐空间的模型 显式隐式混合模型 利用知识库和形式逻辑构建相应的显式 将规则和推理过程编码到模型中,以此 利用知识库和形式逻辑约束隐空间 描述 的推理机制来优化模型 作为额外的信息用于模型的训练 的分布 模型 Abductive Learning,NGS,WS-NeSyL CycleGT,JointGT Prompt Learning 1、模型具有良好的泛化能力; 1、对于简单的逻辑具有很好的表现; 1、模型能够泛化到逻辑复杂的任务中; 优势 2、适用于大规模预训练模型。 2、具有良好的可解释性。 2、适用于大规模预训练模型。 3、有效的规避虚假相关性 1、知识库和形式逻辑如何约束隐 1、难以处理混合类型的推理和不确定 1、本身模型的可解释性差; 空间? 劣势/挑战 性较大的推理; 2、对虚假相关性敏感; 2、如何确定隐空间包含足够的知 2、性能强烈依赖模型的感知能力。 3、目前来说缺少统一的训练范式。 识和逻辑
23 .谢谢