自然语言处理在语法纠错中的应用

自然语言处理在语法纠错中的应用

展开查看详情

1. 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww 李若冰/流利说 G人 w ruobing.li@liulishuo.com CU AI

2. 区 语言学习的时代背景 术 cn 社 技 g. 语法纠错问题 能 cu 智 ai 如何进行自动语法纠错 工 . ww G人 w 自动语法纠错的实际应用场景 总结 CU AI 1

3. 语言学习的时代背景 区 术 cn 社 技 g. 能 cu 全世界有约 118 多个国家将英语作为母语、官方语言或普遍的第二语言 智 ai 工 . 中国有超过 4 亿人在学英语 ww G人 w 每年有数千万考生参加各类英语等级考试 CU AI AI Pioneer 2

4.AI Pioneer 语言学习的时代背景 AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 3

5. 语言学习的时代背景 区 术 cn 社 技 g. 能 cu 全世界有约 118 多个国家将英语作为母语、官方语言或普遍的第二语言 智 ai 工 . 中国有超过 4 亿人在学英语 ww G人 w 每年有数千万考生参加各类英语等级考试 CU AI AI Pioneer 4

6. Duolingo 平台上各国最喜欢学习的语言 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww 4 亿英语 学习者 G人 w CU AI AI Pioneer 5

7. 语言学习的时代背景 区 术 cn 社 技 g. 能 cu 全世界有约 118 多个国家将英语作为母语、官方语言或普遍的第二语言 智 ai 工 . 中国有超过 4 亿人在学英语 ww G人 w 每年有数千万考生参加各类英语等级考试 CU AI AI Pioneer 6

8. 区 语言学习的时代背景 术 cn 社 技 g. 语法纠错问题 能 cu 智 ai 如何进行自动语法纠错 工 . ww G人 w 自动语法纠错的实际应用场景 总结 CU AI 7

9. 语法纠错问题 区 术 cn 社 技 g. 语法在教学中的重要性 能 cu 智 ai • 语言知识以学习语法为中心 工 . • 语法影响表达的准确性 ww • 系统的语法知识可以指导未来的自主 G人 w 语言学习 CU AI AI Pioneer 8

10. 语法纠错问题 区 术 cn 社 技 g. 能 cu “Each language has its own systematic ways 智 ai through which words and sentences are assembled to convey meaning.” 工 . ww G人 w —— Fraser & Hodson (1978) CU AI AI Pioneer 9

11. 语法纠错问题 区 术 cn 社 技 g. 什么是语法错误? 能 cu • 句法:规则驱动 智 ai • 用法:习惯使然 工 . ww G人 w depend on sth. ✓ knock on the door ✓ depend in sth. ✗ knock the door ✗ CU AI AI Pioneer 10

12. 语法纠错问题 区 术 cn 社 技 g. 什么是语法错误? 能 cu • 句法:规则驱动 智 ai • 用法:习惯使然 工 . ww G人 w depend on sth. ✓ knock on the door ✓ depend in sth. ✗ knock the door ✗ CU AI AI Pioneer 11

13. 语法纠错问题 区 术 cn 社 语法错误的复杂性 技 g. • 错误类型多 能 cu • 50+大类 智 ai • 数百种小类 工 . ww • 多重句法功能 • 远距离依赖 G人 w • 多样性 CU AI AI Pioneer 12

14. 语法纠错问题 区 术 cn 社 语法错误的复杂性 技 g. • 错误类型多 能 cu • 多重句法功能 智 ai 工 . • 以介词为例 ww • 作定语:The key to the door is missing. G人 w • 作表语:As we know, Japan is to the east of China. • 作状语:All the work must be done by hand. • 远距离依赖 CU AI • 多样性 AI Pioneer 13

15. 语法纠错问题 区 术 cn 社 语法错误的复杂性 技 g. • 错误类型多 能 cu • 多重句法功能 智 ai 工 . • 远距离依赖 ww • 例如:A recent report over the source of one’s G人 w personality and development have stimulated great interest from public. • 多样性 CU AI AI Pioneer 14

16. 语法纠错问题 区 术 cn 社 语法错误的复杂性 技 g. • 错误类型多 能 cu • 多重句法功能 智 ai 工 . • 远距离依赖 ww • 多样性 G人 w • He went to the hospital. • He goes to the hospital. CU AI AI Pioneer 15

17. 区 语言学习的时代背景 术 cn 社 技 g. 语法纠错问题 能 cu 智 ai 如何进行自动语法纠错 工 . ww G人 w 自动语法纠错的实际应用场景 总结 CU AI 16

18. 如何进行自动语法纠错 区 术 cn 社 技 g. 自动语法纠错任务的背景 能 cu • 数据 智 ai • 评价 工 . ww • 竞赛 G人 w CU AI AI Pioneer 17

19. 语法纠错任务的背景 – 数据 区 已知的语法纠错人工标注数据 术 cn 社 技 g. 是否 大小 数据集 来源 公开 (sentence pairs) 能 cu Cambridge English Corpus University of no 1.4M (CLC) Cambridge 智 ai The First Certificate in Subset of the yes 23k 工 . English (FCE) CLC ww https://lang- Lang-8 yes 1.1M 8.com/ G人 w The National University of National Singapore Corpus of yes 57k University of Learner English (NUCLE) Singapore CU https://writeandi W&I+LOCNESS yes 34k mprove.com/ AI AI Pioneer 18

20. 语法纠错任务的背景 – 数据 区 主要语法错误类型的占比 术 cn 社 技 g. 标点删除 14.6 其他替换 11.3 能 cu 介词替换 6.5 智 ai 拼写替换 5.2 工 . 动词时态替换 5 ww 冠词删除 4.8 大小写替换 动词替换 G人 w 4.7 4.4 标点替换 3.8 CU 冠词插入 3.7 0 2 4 6 8 10 12 14 16 AI 占比(%) AI Pioneer 19

21. 语法纠错任务的背景 – 评价 区 术 cn 自动语法纠错效果的评价方法 社 技 g. 能 cu 智 ai 工 . ww G人 w CU AI 1. Better Evaluation for Grammatical Error Correction 2. Automatic Annotation and Evaluation of Error Types for Grammatical Error Correction AI Pioneer 3. JFLEG: A Fluency Corpus and Benchmark for Grammatical Error Correction 20

22. 语法纠错任务的背景 – 竞赛 区 术 cn 社 技 g. 排名 队伍 排名 队伍 排名 队伍 能 cu 1 UIUC Columbia UEdin & MS 智 ai 1 1 University Redmond 2 NTHU 工 . & UIUC ww 2 Kakao Brain 3 UMC 2 Cambridge 4 NARA G人 w 3 AMU 3 流利说 4 Cambridge 4 POST CU AI 1. The CoNLL-2013 Shared Task on Grammatical Error Correction 2. The CoNLL-2014 Shared Task on Grammatical Error Correction AI Pioneer 3. Building Educational Applications 2019 Shared Task: Grammatical Error Correction 21

23. 如何进行自动语法纠错 自动语法纠错方法的演进史 区 术 cn 社 技 g. 规则驱动(Language Tool, 2005) 能 cu 传统特征工程和机器学习方法,2013 智 ai 统计机器翻译,2014 工 . 统计机器翻译成为主流方法,2016 ww 基于深度学习的分类方法,2017 G人 w 基于 CNN 的神经机器翻译,2018.01 基于 Transformer 的神经机器翻译, 2018.04 以优化流畅度为目标的学习与推理(之 CU 后首次达到人类标注的水平),2018.07 AI 使用预训练的神经机器翻译,2019.03 AI Pioneer 22

24. 如何进行自动语法纠错 区 术 cn • 传统人工智能方法 社 技 g. • 深度学习方法 能 cu • 深度学习分类器 智 ai • 神经机器翻译 工 . ww • 现代自动语法纠错框架 • 数据优化 G人 w • 模型优化 CU • 推断优化 AI AI Pioneer

25. 传统人工智能方法 区 规则驱动 术 cn 社 技 g. • 基于模式匹配 能 cu • 例如: 智 ai /to( RB)* VB(DNGZ)/ → /to( RB)* VB/ 工 . ww to talking → to talk • 基于词表 G人 w • 例如: CU I [eated → ate] an apple today. AI AI Pioneer

26. 传统人工智能方法 传统特征工程和分类方法 区 术 cn 社 技 g. • 手工特征抽取 能 cu • 分类方法 智 ai 工 . ww G人 w CU 针对冠词分类任务的 AI 自然语言特征抽取 AI Pioneer

27. 传统人工智能方法 区 传统特征工程和分类方法 术 cn 社 技 g. I have the very lovely sister. 能 cu 智 ai 工 . a/an ww 抽取 the 周围 the 的语言特征 G人 w 无冠词 传统分类器 CU AI AI Pioneer

28. 传统人工智能方法 统计机器翻译 区 术 cn 社 技 g. 双语语料 单语语料 开发集 能 cu 智 ai 工 . 目标语料语言 ww 短语翻译模型 权重 模型 G人 w 有语法错 翻译 误的句子 解码器 结果 CU AI AI Pioneer

29. 深度学习方法 区 基于深度学习的分类方法 术 cn 社 技 g. • 强大的特征学习器 能 cu • 更好地利用更多的数据 智 ai • 端到端 工 . ww • … G人 w CU AI AI Pioneer