自然语言处理基础

下载 15

献良

发布于

5686

人观看

#信息技术

自然语言处理的总体介绍及其主要的任务，传统机器学习方法和深度学习方法分析，以及涉及到的NLP前沿研究进展。

展开查看详情

1 .自然语言处理基础 (Natural Language Processing, NLP) 孙栩北京大学 xusun@pku.edu.cn http://xusun.org

2 .NLP 的总体介绍简介、研究范式 NLP 的传统机器学习方法简单分类、序列标注问题 NLP 的深度学习方法语义表示、反向传播、机器翻译、句法分析、文档分类 NLP 的典型任务简介问答系统、情感分析、自然语言生成 NLP 的前沿研究进展：自然语言生成面对的主要挑战内容安排 2 /300

3 .NLP 的总体介绍简介、研究范式 NLP 的传统机器学习方法简单分类、序列标注问题 NLP 的深度学习方法语义表示、反向传播、机器翻译、句法分析、文档分类 NLP 的典型任务简介问答系统、情感分析、自然语言生成 NLP 的前沿研究进展：自然语言生成面对的主要挑战内容安排 3 /300

4 .NLP 的总体介绍简介研究范式

5 .自然语言处理是通过建立形式化的计算模型来分析、理解和处理自然语言什么是自然语言：指人类使用的语言，如汉语、英语等语言是思维的载体，是人际交流的工具语言的两种属性－文字和声音人类历史上以语言文字形式记载和流传的知识占知识总量的 80 ％以上其它术语计算语言学 (Computational Linguistics) 自然语言理解 (Natural Language Understanding) 人类语言技术 (Human Language Technology) 自然语言处理是什么？ 5 /300

6 .自然语言处理（ natural language processing ， NLP ）或称自然语言理解 (natural language 　 understanding) 是人工智能研究的重要内容自然语言处理就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。 - 冯志伟《自然语言的计算机处理》自然语言处理是什么？人工智能（ AI ）机器学习、模式识别机器视觉，等等自然语言处理（机器对人类语言的理解） 6 /300

7 .终极目标强人工智能强自然语言处理使计算机能理解并生成人类语言（人工智能的最高境界）当前目标弱人工智能弱自然语言处理研制具有一定人类语言能力的计算机文本或语音处理系统（目前阶段切实可行的做法）研究目标 7 /300

8 .强人工智能、弱人工智能？如何判断计算机系统的智能？计算机系统的表现 (act) 如何？反应 (react) 如何？相互作用 (interact ) 如何？与有意识个体（人）比较如何？自然语言处理是什么？ 8 /300

9 .NLP 的传统统计机器学习方法序列标注问题链状结构典型问题：分词、词性标注、实体识别典型模型：ＨＭＭ，结构化感知器句法分析树状结构上下文无关句法、 PCFG 模型依存句法、依存句法分析模型研究方向 S NP VP John V NP liked the dog in the pen 9 /300

10 .NLP 的深度学习方法前馈神经网络词向量基于窗口的分类卷积神经网络捕捉局部结构信息 NER 、情感分析递归神经网络循环神经网络捕捉时序信息 LSTM, GRU 序列到序列模型 Attention 研究方向 10 /300

11 .前沿研究图像描述生成多模态问答系统 / 阅读理解基于文本的推理序列到序列模型 ConvS2S Transformer 自然语言生成风格转换等研究方向 11 /300

12 .机器翻译人机对话信息检索、信息提取情感分析、舆论分析、知识发现自动抽取知识库具体的自然语言处理任务简介 12 /300

13 .搜索在线广告 / 推荐自动 / 辅助翻译语音识别讯飞 Siri Cortana Alexa 聊天机器人自动客户服务控制设备小冰自然语言处理与产业 13 /300

14 .表象原因：自然语言中有大量的歧义现象无法象处理人工语言那样，写出一个完备的、有限的规则系统来进行定义和描述。自然语言的规则很少没有例外此外，还有大量的噪音甚至错误表达歧义举例： The boy saw the girl with a telescope. 本质原因：知识体系的缺乏自然语言的理解不仅和语言本身的规律有关，还和语言之外的知识（例如常识）有关语言处理涉及的常是海量知识，知识库的建造维护难以进行场景 / 背景的建立问题两个原因的联系：歧义是知识缺乏的表现形式自然语言处理的难点是什么？ 14 /300

15 .表象原因：自然语言中有大量的歧义现象无法象处理人工语言那样，写出一个完备的、有限的规则系统来进行定义和描述。自然语言的规则很少没有例外此外，还有大量的噪音甚至错误表达歧义举例： The boy saw the girl with a telescope. 本质原因：知识体系的缺乏自然语言的理解不仅和语言本身的规律有关，还和语言之外的知识（例如常识）有关语言处理涉及的常是海量知识，知识库的建造维护难以进行场景 / 背景的建立问题两个原因的联系：歧义是知识缺乏的表现形式自然语言处理的难点是什么？ 14 /300

16 .用规则分析句子“ the boy saw the girl with a telescope” 具体方法 16 /300

17 .All grammar leak (Sapir 1921) 对于自然语言而言，不大可能写出一部完备的规则集，语言规则有很强的伸缩性。规则系统的普遍问题不完备规则本身的歧义理论不够严谨 (ad-hoc) 规则调整和更新很复杂维护困难具体方法 17 /300

18 .目前，数据驱动的方法是主流 1992: 24% 1994: 35% 1996: 39% 1999: 60% 2001: 87% 2010 ： >90% 效果评测 ? 自然语言歧义多、关于语言处理方法和系统的评测也需要解决相关的歧义问题 1 ，规避语言学争议、制定标准测试集 2 ，看应用效果具体方法 18 /300

19 .Morphology 词汇学 / 形态学传统词素 / 语素 (morphemes) 深度学习向量表示神经网络结合深度学习方法：词汇学 19 /300

20 .词向量 Word vectors Embedding 深度学习方法：词汇学 20 /300

21 .Syntax 语法 / 句法传统短语离散的类别， NP ， VP 深度学习向量表示神经网络结合深度学习方法：句法 21 /300

22 .Semantics 语义传统：精心设计的函数系统没有相似性和模糊性的概念深度学习向量表示神经网络结合深度学习方法：语义 22 /300

23 .情感分析传统情感词词典，词袋否定特征深度学习递归网络深度学习方法：情感分析 23 /300

24 .机器翻译传统多种层级超大规模复杂系统深度学习 Seq-to-Seq 句子压缩为一个向量深度学习方法：机器翻译 24 /300

25 .向量：一切的表示，表示一切词素、词、短语、句子都可以表示为向量描述语汇间的复杂关系多维、连续相似性模糊性深度学习方法 25 /300

26 .NLP 的总体介绍简介、研究范式 NLP 的传统机器学习方法简单分类、序列标注问题 NLP 的深度学习方法语义表示、反向传播、机器翻译、句法分析、文档分类 NLP 的典型任务简介问答系统、情感分析、自然语言生成 NLP 的前沿研究进展：自然语言生成面对的主要挑战内容安排 26 /300

27 .NLP 的传统机器学习方法简单分类：机器学习基础结构化分类：序列标注问题

28 .NLP 的传统机器学习方法简单分类：机器学习基础结构化分类：序列标注问题

29 .简单分类问题感知器模型 (perceptron) 支持向量机模型 (support vector machine, SVM) 大纲 29 /300

15点赞

10收藏

15下载