202011-CIPS-自然语言处理中的预训练模型

下载 4

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
文档嵌入链接
<iframe src="https://www.slidestalk.com/ai_algorithms/202011CIPS44756?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

人工智能算法

发布于

2年前

255

人观看

#信息技术 2018_GIAC 容器性能架构云计算青云 giac scalingscatter 周小四

展开查看详情

1 . 第十五届中国中文信息学会暑期学校暨中国中文信息学会《前沿技术讲习班》自然语言处理中的预训练模型 Pre-trained Models for Natural Language Processing: A Survey, https://arxiv.org/abs/2003.08271 邱锡鹏复旦大学 2020年11月08日 https://xpqiu.github.io

2 .报告概要自然语言表示学习 • Transformer模型及改进预训练模型 • 自监督学习、分类体系预训练模型的扩展 • 跨语言、跨模态、知识嵌入、模型压缩迁移到下游任务未来展望邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 2

3 . 自然语言表示学习邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 3

4 .什么是自然语言处理（NLP）？  自然语言≈人类语言，不同于人工语言（比如程序语言）  自然语言处理包括语音识别、自然语言理解、自然语言生成、人机交互以及所涉及的中间阶段。  是人工智能和计算机科学的子学科。基础技术核心技术应用 • 词法分析 • 机器翻译 • 智能客服 • 句法分析 • 自动问答 • 搜索引擎 • 实体识别 • 情感分析 • 个人助理 • 语义分析 • 信息抽取 • 推荐系统 • 篇章分析 • 文本摘要 • 舆情分析 • 语言模型 • 文本蕴涵 • 知识图谱邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 4

5 .NLP的基础：语言表示  语言为离散的符号  如何在计算机中表示语言的语义？知识库分布式表示规则 Distributed Representation • 压缩、低维、稠密向量 • 用O(K)个参数表示 O(2k)区间 • 嵌入（ Embeddings）邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 5

6 .词嵌入（Word Embeddings）上海北京高兴难过 https://indico.io/blog/visualizing-with-t-sne/ 邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 6

7 .语言表示学习  词  短语  组合语义模型今天  句子的  连续词袋模型天  序列模型气真  递归组合模型不  卷积模型错  篇章。  层次模型邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 7

8 .NLP中神经网络模型的一般架构模型驱动 + 数据驱动邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 8

9 .自然语言处理任务  在得到字、句子表示之后，自然语言处理任务类型划分为：同步的序列到异步的序列到类别（对象）序列到类别序列序列到序列文本分类中文分词机器翻译文本生成图像描述生情感分析词性标注自动摘要成语义角色标对话系统注减轻了对特征工程的依赖！邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 9

10 .序列到类别带着愉悦的心情这部电影太糟了这部电影很棒看了这部电影 Positive (正面) Negative (负面) Positive (正面) Output Encoder Token embeddings 这部电影太糟了情感分析邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 10

11 .序列到类别蕴涵无关矛盾 Output Encoder Token embeddings 北京是中国首都 [SEP] 北京是城市文本蕴涵邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 11

12 .同步（对齐）的序列到序列 Output S S S B E B E Tags CRF Encoder Token embeddings 他说的确实在理中文分词邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 12

13 .异步（非对齐）的序列到序列自回归语言模型 Output 机器学习 $ Tags Encoder Decoder Token embeddings Machine Learning $ 机器学习机器翻译邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 13

14 .语言表示学习的几个问题语义表示数据驱动模型驱动先验偏置邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 14

15 .自然语言表示学习自然语言表模型驱动数据驱动示学习邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 15

16 .语义组合  语言的性质  层次性  递归性  序列性  语义组合  句子的语义可以词组成  长程依赖邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 16

17 .寻找最适合NLP的模型 2019 • ERNIE 2015 2017 • RoBERTa 2013 • Tree-LSTM • Transformer • XLNET • Word2vec • LSTM+Attention • ELMO • T5 • … 2014 2016 2018 2020 • GLOVE • Self-Attention • BERT • GPT3 • Recursive NN • GNN • RNN(LSTM/GRU) • CNN • Seq2seq 邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 17

18 .NLP中三大模型隐含先验：局部组合只建模了输入信息的局部依赖关系连接权重𝛼𝑖𝑗 由注意力机制动态生成邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 18

19 . Transformer模型介绍邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 19

20 .注意力机制（ Attention Mechanism ）  注意力机制可以分为两步  计算注意力分布𝛼， 𝑠(𝑥𝑖 , 𝑞) 打分函数  根据𝛼来计算输入信息的加权平均。邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 20

21 .自注意力（Self- Attention ）示例图片来源：http://fuyw.top/NLP_02_QANet/ 邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 21

22 .QKV模式（Query-Key-Value）邱锡鹏,神经网络与深度学习,机械工业出版社, 2020. 第八章“注意力机制与外部记忆” 邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 22

23 .多头（multi-head）自注意力模型邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 23

24 .Transformer:可能是目前为止最适合NLP的模型  广义的Transformer指一种基于自注意力的全连接神经网络  核心组件  自注意力（Self-Attention）  仅仅自注意力还不够，包括其它操作  位置编码  层归一化  直连边  逐位的FNN 图片来源：http://jalammar.github.io/illustrated-transformer/ 邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 24

25 .Transformer 邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 25

26 .Transformer完整结构邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 26

27 .自注意力模型分析  模型特点解决思路  全连接结构  没有任何先验假设  通过位置编码来建模序列信息改进模型 • 引入先验假设  复杂度： 𝑂(𝐿2 𝐷) • 任务特定架构  无法处理长文档预训练+精调  容易过拟合 • 设计预训练任务 • 改进精调方法邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 27

28 . Transformer模型的改进邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 28

29 . Star-Transformer Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xiangyang Xue, Zheng Zhang. Star-Transformer, NAACL 2019, https://arxiv.org/pdf/1902.09113.pdf 邱锡鹏 (复旦大学) 自然语言处理中的预训练模型 29

1点赞

0收藏

4下载