- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
语言预训练模型与应用
展开查看详情
1 .语言预训练模型与应用 常欣煜、徐子懋、赵华耀、禹言江、王子轩、王雪飞
2 . 1 引子 目录 2 模型 CONTENTS 3 应用 4 Demo 5 前沿进展
3 .1 引子 徐子懋
4 .自然语言处理(NLP)是什么 在以前我们做研究,研究的数据都是表格里的数据,比如“关于各个气象数据和 天气之间的关系”,我们可以把天气进行编码/处置。然后进行数据分析。 自然语言处理(Natural Language Processing)研究的是对人类所说的语 言进行处理研究的问题。让计算机理解自然语言文本的含义,让其理解你想表达 的深层意图、思想等。 4
5 .常见的NLP问题 中文分词 聊天机器人(小冰等) 词云画像 机器翻译(谷歌翻译、百度翻译等) 词性分析 语音识别(小德小德、siri) 自动摘要 …… 关系挖掘 情感分析 知识图谱 5
6 .NLP问题的难点 如何把我们的话让机器听懂? - 如何分词 - 一词多义 6
7 .迁移学习 迁移学习是一种机器学习方法,就是把为一个任务开发的模型作为初始点,重新 使用在为另一个任务开发模型的过程中。 在深度学习中常用于计算机视觉任务和自然语言处理任务,可以节省时间资源和 算力资源。 7
8 .语言预训练模型 语言预训练模型是用于自然语言处理(NLP)任务中的模型,我们想让系统“读 懂”我们的语言,就要先通过预训练,转化为系统能看的明白的格式。 比如word2vec,就把单词转化为一个个的向量,通过向量在后续任务中继续训 练。 8
9 .2 模型 ELMo、ENRIE:赵华耀 BERT、GPTs:禹言江
10 .ELMo算法介绍 Embeddings from Language Model 2018年NAACL上的Best Paper 对比传统Word2Vec这种形式的词向量,本文提出的模型是一种动态模型。在以往的词向量表示中, 词都是一种静态的形式,无论在任何的上下文中都使用同一个向量。这种情况下很难表示一词多义的现 象,而ELMo则可以通过上下文动态生成词向量,从理论上会是更好的模型,从实测效果来看在很多任务 上也都达到了当时的SOTA成绩。 ELMo是一种是基于特征的语言模型,用预训练好的语言模型,生成更好的特征。 10
11 .ELMo算法介绍 使用的是一个双向的LSTM语言模型,由一个前向和一个后向语言模型构成 目标函数就是取这两个方向语言模型的最大似然。 11
12 . ELMo算法介绍 优势所在 假设词向量不固定 基于整个语料库学习 ELMo的假设前提一个词的词向量不应该是 ELMo在学习语言模型的时候是从整个语料库去学习 固定的,所以在一词多意方面ELMo的效果一定比 的,而后再通过语言模型生成的词向量就相当于基于整个 word2vec要好。 语料库学习的词向量,更加准确代表一个词的意思。 12
13 . ELMo算法介绍 缺点 特征抽取器 双向拼接的能力 首先,一个非常明显的缺点在特征抽取器选择方面, 另外一点,ELMO 采取双向拼接这种融合 ELMO 使用了 LSTM 而不是新贵 Transformer,很多 特征的能力可能比 Bert 一体化的融合特征方式 研究已经证明了 Transformer 提取特征的能力是要远 弱,但是,这只是一种从道理推断产生的怀疑, 强于 LSTM 的。 目前并没有具体实验说明这一点。 13
14 .ENRIE-清华算法介绍 ERNIE: Enhanced Language Representation with Informative Entities ——清华 提出将知识显性地加入到BERT中 14
15 .ENRIE-清华算法介绍 模型架构 15
16 .ENRIE-百度算法介绍 ERNIE 1.0 Enhanced Representation through Knowledge Integration ——百度在2019年4月的时候,基于BERT模型,做的进一步优化 缺陷及优点 优点:善于捕获词语之间相互关系,在完型填空等类型的任务中的表现良好。 16
17 .ENRIE-百度算法介绍 17
18 .ENRIE-百度算法介绍 百度ERNIE 2.0提出了 持续预训练 。通过持续预训练,模型能够持续地学习各类任务,从而使得 模型的效果达到了进一步提升。 百度称持续预训练的过程包含两个步骤:首先,需要不断构建无监督的预训练任务,具有大的语 料库和/或先验知识。其次,通过多任务学习逐步更新ERNIE模型。 百 度 提 出 可 持 续 学 习 语 义 理 解 框 架 ERNIE 2.0 , 支 持 增 量 引 入 词 汇 ( lexical ) 、 语 法 ( syntactic ) 、语义( semantic )等3个层次的自定义预训练任务,能够全面捕捉训练语料中 的词法、语法、语义等潜在信息。 18
19 .ENRIE-百度算法介绍 ERNIE2.0总结 ERNIE 2.0 创新地将过去单一的预训练流程拆解为串行的多个预训练任务,无疑是其最大的贡献。 如何通过多任务的形式将更多的语法信息有效地融入到模型的自编码中,相信会成为未来新的研究方 向。 19
20 .BERT BERT BERT 模型参数 (340M) BERT- base ELMO (101M) (94M) LSTM (0.08M) bert: https://arxiv.org/pdf/1810.04805.pdf 20
21 .BERT Network Architecture 21
22 .BERT Groun Masked Language Model(MLM) Minimize d truth cross entropy 理 Linear MAS = K or Random 北 京 理 工 大 学 word 23
23 .BERT Pre-train Next Sentence Prediction(NSP) Linear YES/N O 24
24 .BERT Fine-tune Pre-train Masked Language Model(MLM) Next Sentence Prediction(NSP) Fine-tune Model for Model for Model for Model for Task 1 Task 2 Task 3 Task 4 Downstream tasks 25
25 .BERT Pre-training ber t is challenging • Pre-training corpus include 3300M words • 4 days on 16 TPUs(64 TPU chips total) 27
26 .BERT downstream tasks Sentiment analysis class Input: sequence Output: class Linear Random initialization Pre-trained bert [CLS]北 京 理 工 大 学 28
27 .BERT downstream tasks POS tagging Input: sequence class class Output: sequence of class Linear ···· Linear Random · initialization Pre-trained bert [CLS]𝒘𝟏 𝒘𝟐 𝒘𝟑 𝒘𝟒 𝒘𝟓 𝒘𝟔 29
28 .BERT downstream tasks Natural language inference Input: two sequences class Output: a class Linear Random initialization Pre-trained bert [CLS]𝒘𝟏 𝒘𝟐 𝒘𝟑 𝒘𝟒 𝒘𝟓 𝒘𝟔 [SEP] 𝒘𝟏 𝒘𝟐 𝒘𝟑 𝒘𝟒 𝒘𝟓 30
29 .BERT down stream tasks Sentence embedding embedding embedding Linear Minimize Cosine Linear Embedding Loss [CLS]北 京 化 工 大 学 [CLS]北 京 理 工 大 学 31