- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
自然语言处理在语法纠错中的应用
展开查看详情
1 .自然语言处理在语法纠错 中的应用 算法组 李若冰
2 . Outline • 背景 • 如何进行自动语法纠错 • 语法纠错在流利说产品中的应用 • 未来的工作
3 . 背景 • 什么是语法?错误? • 句法:规则驱动 • 用法:习惯使然
4 .“Each language has its own systematic ways through which words and sentences are assembled to convey meaning.” —— Fraser & Hodson (1978)
5 . 背景 • 什么是语法?错误? • 句法:规则驱动 • 用法:习惯使然 depend on sth. ✓ knock on the door ✓ depend in sth. ✗ knock the door ✗
6 . 背景 • 什么是语法错误? • 句法:规则驱动 • 用法:习惯使然 • 语法纠错的需求(以英语为例) • 全世界有 110 多个国家将英语作为母语、官方语言或普遍的 第二语言 • 中国有超过 4 亿人在学英语 • 每年有数千万考生参加各类英语等级考试
7 .Duolingo 平台上各国最喜欢学习的语言
8 .Duolingo 平台上各国学习英语人数占所有语种总数的比例
9 . 如何进行自动语法纠错 • 语法纠错的难点 • 语法纠错任务的背景 • 语法纠错方法的演进史 • 流利说语法纠错方向的工作
10 . 语法纠错的难点 • 任务的定义 • 问题的复杂性 • 训练数据的稀缺
11 . 任务的定义 • 各个击破的分类问题? • 序列标注问题? • 翻译问题?
12 . 问题的复杂性 • 错误类型多 • 50+ 大类 • 数百种小类 • 多重句法功能 • 远距离依赖 • 噪音
13 . 问题的复杂性 • 错误类型多 • 多重句法功能 • 以介词为例 • 作定语:The key to the door is missing. • 作表语:As we know, Japan is to the east of China. • 作状语:All the work must be done by hand. • 远距离依赖 • 噪音
14 . 问题的复杂性 • 错误类型多 • 多重角色 • 远距离依赖 • 例如:A recent report over the source of one’s personality and development have stimulated great interest from public. • 噪音
15 . 问题的复杂性 • 错误类型多 • 多重角色 • 远距离依赖 • 噪音
16 . 语法纠错任务的背景 • 数据 • 评测 • 竞赛
17 . 数据 是否 大小 数据集 来源 公开 (sentence pairs) Cambridge English Corpus University of no 1.4M (CLC) Cambridge The First Certificate in Subset of the yes 23k English (FCE) CLC https://lang- Lang-8 yes 1.1M 8.com/ The National University of National Singapore Corpus of yes 57k University of Learner English (NUCLE) Singapore https://writeandi W&I+LOCNESS yes 34k mprove.com/
18 . 数据 标点删除 14.6 其他替换 11.3 介词替换 6.5 拼写替换 5.2 动词时态替换 5 冠词删除 4.8 大小写替换 4.7 动词替换 4.4 标点替换 3.8 冠词插入 3.7 0 2 4 6 8 10 12 14 16 占比(%)
19 . 评测 • Max-Match𝑖 " metric (𝑀$ ) ,∗- 原句:It ‘s difficult answer at the question . • 𝐹& = 1 + 𝛽$ ∗ . 修改:It ‘s difficult to answer at the question . & ∗,/- • 𝛽 = 1 (CoNLL-2013) 答案:It ‘s difficult to answer at the question . • 𝛽 = 0.5 (CoNLL-2014) 修改:位置[3,3] 插入 to • Errant𝑖 $ 答案:位置[3,3] 插入 to,位置[4,5] 删除 at • BEA-2019 准确率 = 1 • JFLEG𝑖 3 召回率 = 0.5 𝐹5.6 = 0.83 1. Better Evaluation for Grammatical Error Correction 2. Automatic Annotation and Evaluation of Error Types for Grammatical Error Correction 3. JFLEG: A Fluency Corpus and Benchmark for Grammatical Error Correction
20 . 竞赛 • CoNLL-2013𝑖 " • CoNLL-2014𝑖 $ • BEA-2019𝑖 3 1. The CoNLL-2013 Shared Task on Grammatical Error Correction 2. The CoNLL-2014 Shared Task on Grammatical Error Correction 3. Building Educational Applications 2019 Shared Task: Grammatical Error Correction
21 . 语法纠错方法的演进史 规则驱动(Language Tool, 2005) 传统特征工程和机器学习方法,2013 统计机器翻译,2014 神经网络方法,2016 统计机器翻译成为主流方法,2016 基于深度学习的分类方法,2017 基于 CNN 的神经机器翻译,2018.01 基于 Transformer 的神经机器翻译, 2018.04 以优化流畅度为目标的学习与推理(首 次达到人类标注的水平),2018.07 弱监督,2018.10 基于 Copy 机制的神经机器翻译,2019.03
22 . 规则驱动 • 基于模式匹配 • 例如: /to( RB)* VB(DNGZ)/ → /to( RB)* VB/ to talking → to talk • 基于词表 • 例如: I [eated → ate] an apple today.
23 . 传统特征工程和分类方法 • 手工特征提取 • 分类方法
24 . 手工特征抽取 针对冠词分类任务的 自然语言特征提取 1. The University of Illinois System in the CoNLL-2013 Shared Task, 2013
25 . 分类方法 • 手工特征提取 I have the very lovely sister. • 分类方法 手工提取 the 周围的语言特征 分类器 a/an the 无冠词 朴素贝叶斯分类器 最大熵分类器
26 . 基于深度学习的分类方法 • 强大的特征学习器 • 简单有效的学习机制 • 端到端 • …
27 . yt Softmax ℎ8 I goes to school today. 𝐶8 这句话中,我们该如何 判断 goes 的主谓一致性是 𝑎8 否错误? GRU GRU GRU GRU GRU I goes to school today 1. Deep Context Model for Grammatical Error Correction, 2017
28 . 可解释性 However , the father of the two boys is still handsome 我们需要判断 当前动词 is 的 . 主谓一致性是 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 否正确 Attention weight
29 . 可解释性 However , the father of the two boys is still handsome 我们需要判断 当前动词 is 的 . 主谓一致性是 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 否正确 Attention weight