- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
中科院自动化所宗成庆-自然语言处理方法与应用
展开查看详情
1 .自然语言处理方法与应用 宗成庆 中国科学院自动化研究所 模式识别国家重点实验室 cqzong@nlpr.ia.ac.cn
2 . 提 纲 1. 学科产生与发展 2. 技术挑战 3. 基本方法 4. 应用举例 5. 技术现状 6. 我们团队 2/108
3 . 1. 学科产生与发展 什么是自然语言? 自然语言是人类社会发展过程中自然产生的语言, 是最能体现人类智慧和文明的产物 语言是思维的载体,是人类交流思想、表达情感最 自然、最直接、最方便的工具 人类历史上以语言文字形式记载和流传的知识占知 识总量的80%以上 3/108
4 . 1. 学科产生与发展 自然语言处理技 Warren Weaver 术的诞生 信息论先驱 1920至1932年威斯康 星大学数学教授 1932至1955年担任 Rockefeller Institute自 然科学部主任 A. D. Booth 数学物理学家 1947年3月至9月在普 1946年,世界上第一 林斯顿大学参与 台计算机ENIAC诞生 John von Neumann 研 究组,后来曾在伦敦 大学工作 4/108
5 . 1. 学科产生与发展 March 4, 1947 I wondered if it were unthinkable to design a computer which would translate 诺伯特·维纳 (Norbert Wiener) (1894年11月26日~ 1964年3月18日) 5/108
6 . 1. 学科产生与发展 达特茅斯 左起:摩尔、麦卡锡、明斯基、 (成立于1769年) 赛弗里奇(Oliver Selfridge)、所罗门诺夫 人工智能夏季研讨会(大茅斯会议, 1956) Summer Research Project on Artificial Intelligence (Dartmouth Conference) 自然语言理解(natural language understanding, NLU)成为 人工智能研究的核心问题之一。 6/108
7 . 2. 学科产生与发展 自W. Weaver 和 A. D. Booth 提出机器翻译概念后, 美国和英国的学术界对机器翻译(machine translation, MT)产生了浓厚的兴趣,并得到了实业界的支持。 1954年 Georgetown 大学在 IBM 协助下,用IBM-701 计算机实现了世界上第一个 MT 系统,实现俄译英 翻译,1954年1月该系统在纽约公开演示。系统只有 250条俄语词汇,6 条语法规则,可以翻译简单的俄 语句子。 随后10 多年里,MT研究在国际上出现热潮。 7/108
8 . 2. 学科产生与发展 1962年国际计算语言学学会 (Association for Computational Linguistics, ACL)成立;1965年国际计算语言学委员会 (International Committee on Computational Linguistics, ICCL)成立。 1964年,美国科学院成立语言自动处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC),调查机器翻 译的研究情况,并于1966年11月公布了一个题为“语言与机器” 的调查报告,简称 ALPAC 报告,宣称:“在目前给机器翻译 以大力支持还没有多少理由”,“机器翻译遇到了难以克服的 语义障碍 (semantic barrier)”。从此,机器翻译研究在世界范围 内进入低迷状态。计算语言学(computational linguistic, CL)术语 首次以正式身份出现在这个报告里。 1980S,随着计算机网络的快速发展和普及,以开发实用自然 语言处理系统为目标的语言工程技术应运而生,自然语言处理 (natural language processing, NLP) 术语由此诞生。 8/108
9 . 2. 学科产生与发展 期望/ GoogleTrans., 2006 水平 百度翻译, 2011 1957~1980末, 规则方法 TAUM-METEO, 1976 SMT 1989 NMT 2013, 2014 模板方法 IBM-701 1954 GIZA, 1999 GIZA++, 2001 Pharaoh, 2004 ALPAC Moses, 2007 1966 EBMT 1984 1947 1960 1970 1980 1990 2000 2010 2020 年份 9/108
10 . 2. 学科产生与发展 期望/ 水平 热潮 1947 1960 1970 1980 1990 2000 2010 2020 年份 10/108
11 . 1. 学科产生与发展 定义-1:自然语言理解 自然语言理解是探索人类自身语言能力和语言思 维活动的本质,研究模仿人类语言认知过程的自然语 言处理方法和实现技术的一门学科。它是人工智能早 期研究的领域之一,是一门在语言学、计算机科学、 认知科学、信息论和数学等多学科基础上形成的交叉 学科。 《计算机科学技术百科全书》(宗成庆) 清华大学出版社,2018.5 11/108
12 . 1. 学科产生与发展 定义-2:计算语言学 通过建立形式化的计算模型来分析、理解和生成 自然语言的学科,是人工智能和语言学的分支学科。 计算语言学是典型的交叉学科,其研究常常涉及计算 机科学、语言学、数学等多个学科的知识。与内容接 近的学科自然语言处理相比较,计算语言学更加侧重 基础理论和方法的研究。 《计算机科学技术百科全书》(常宝宝) 清华大学出版社,2018.5 12/108
13 . 1. 学科产生与发展 定义-3:自然语言处理 自然语言处理是研究如何利用计算机技术对语言 文本(句子、篇章或话语等)进行处理和加工的一门 学科,研究内容包括对词法、句法、语义和语用等信 息的识别、分类、提取、转换和生成等各种处理方法 和实现技术。 《计算机科学技术百科全书》(宗成庆) 清华大学出版社,2018.5 13/108
14 . 1. 学科产生与发展 NLP NLU CL NLP CL NLU HLT 统称:人类语言技术 (human language technique, HLT) 14/108
15 . 1. 学科产生与发展 定义-4:中文信息处理 以中文为主要处理对象的自然语言处理技术。 在不引起混淆的情况下,通常指汉语。但是从 广义上讲,中文指中国境内使用的语言,可以包括 汉语、蒙古语、藏语、维吾尔语等几十种语言。 中文信息处理不仅仅是中国人自己感兴趣的研究 课题,任何一家国际互联网公司都从来不敢忽略或藐 视它。 15/108
16 . 1. 学科产生与发展 (Million) Chinese 1000 Spanish 500 Hindi/Urdu English 300 Arabic Portuguese 100 Japanese 0 French 1950 1970 1990 2010 2030 2050 (Year) 16/108
17 . 1. 学科产生与发展 学科的理论意义 探索人脑语言理解的本质,揭示语言认知的奥秘 研究和建立计算语言学理论体系 推动相关学科产生与发展 学科的应用价值 打破人类语言的障碍,实现任意时间、任意地点、任意语 言的无障碍自由通信 准确理解人的意图,提高个性化信息服务的质量 建立高智能人机交互系统 保障网络内容安全,维护国家和公共安全 保护民族语言文化,促进全球化社会发展 …… 17/108
18 . 1. 学科产生与发展 图片 文本 Flash 扫描文档 视频 87.8%的网络内容为非结构化文本。 18/108
19 . 1. 学科产生与发展 图片 文本 Flash 扫描文档 机器翻译 自动摘要 观点挖掘 信息抽取 自动问答 情感/情绪分析 人机对话 视频 …… 87.8%的网络内容为非结构化文本。 19/108
20 . 1. 学科产生与发展 微信 电话 邮件 短信 Skype QQ 微博 社区论坛 20/108
21 . 1. 学科产生与发展 人物、事件关系分析意义重大 Place Time Person event1 Reason Time Place event3 Results event2 Time Reason Results Time Reason Results 21/108
22 . 1. 学科产生与发展 人物、事件关系分析意义重大 22/108
23 .1. 学科产生与发展 俄罗斯 23/108
24 . 1. 学科产生与发展 64个国家和地区 44亿人口 50多种语言 一 带 一 路 出境游人数破亿, 前20个出境游目 的地有12种语言 24/108
25 . 1. 学科产生与发展 说明 语音和文字是语言的两个基本属性,一般将语音 识别、语音合成和说话人识别等以语音信号为主要研 究对象的语音技术独立出来,而其他以文本(词汇/句 子/篇章等)为主要处理对象的研究内容作为自然语言 处理的主体。 文字识别更多地涉及图像识别与理解的问题。 在实际应用中,很多技术密切相关,往往需要几 种技术集成,共同实现某个应用系统,如人机对话系 统、语音翻译系统等。 25/108
26 . 提 纲 1. 学科产生与发展 2. 技术挑战 3. 基本方法 4. 应用举例 5. 技术现状 6. 我们团队 26/108
27 . 2. 技术挑战 大量存在的未知语言现象 如:高山、高升;吉林、武夷山、桂林、温泉、温馨、时光; 虎蝇,埃博拉,奥特,闷骚;BoW, word2vec 无处不在的歧义词汇 如:苹果、粉丝;bank, interest …… 那辆白色的车是黑车/ 臭豆腐真香啊! 复杂或歧义结构比比皆是 喜欢乡下的孩子。 上大学子烛光追思钱伟长。 “动物保护警察”明年上岗。 27/108
28 . 2. 技术挑战 普遍存在的隐喻表达 在微信圈里潜水;打铁还要自身硬;你简直是个木头脑袋! 雪域高原处处盛开民族团结之花; 各族人民要像石榴籽一样紧紧拥抱在一起。 对翻译而言,不同语言之间的概念不对等 馒头: steamed bread 句子:We do chicken right. 核心挑战: 语义概念的表示和计算方法 说话人意图的分析和推断 语用场景的分析 28/108
29 . 2. 技术挑战 ICML, 6-11 July 2015, Lille, France 29/108