简介

RoBERTa 是华盛顿大学和 FaceBook 在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》提出的预训练模型,论文似乎仅存在 arxiv 版本。RoBERTa 本质上是 BERT 的一个改进版本。论文发现 BERT 是未充分训练的,改进训练之后的 RoBERTa 在 GLUE、RACE、SQuAD 数据集上达到了 SOTA。代码和模型公开在了 github 上。

阅读全文 »

简介

BART 是 Facebook AI 于 2019 年发表的《Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》论文中提出的预训练模型,论文收录于 2020 年 ACL。顾名思义,BART 是一个基于 seq2seq 的预训练模型,可以用于自然语言生成、翻译、理解等任务。论文中的 “Denoising” 直译为降噪,实际上是模型的预训练目标。

阅读全文 »

简介

GPT 系列是 OpenAI 推出的预训练模型,时至今日已经包含了三个模型,今天我来读的是 GPT 系列第三部,出自 2020 年发表在 NeurIPS 上的论文《Language Models are Few-Shot Learners》。秉着最新的成果往往更重要的原则,GPT 系列我打算倒着读。从名字可以看出,GPT-3 关注点在于少样本学习,虽然预训练模型在下游任务微调上取得了很好的成果,但是下游任务的微调往往也需要一定规模的数据集。GPT-3 希望能够用更大的模型(1750 亿)来将微调任务转变为少样本学习任务。

阅读全文 »

简介

今天来看读的是大名鼎鼎的 BERT,出自论文 Google 团队 2018 年的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。BERT(Bidirectional Encoder Representations from Transformers)可谓是 NLP 历史上划时代的预训练模型,在 11 项自然语言处理任务上都取得了 state-of-the-art。并且,Google 将 BERT 的代码与预训练模型全部开源,便于大家使用。

阅读全文 »

简介

今天读的是大名鼎鼎的 BERT------- 的组件之一 Transformer,出自论文 Google 团队 2017 年的论文《Attention Is All You Need》。与传统的 GRU、LSTM 等相比,Transformer 只使用注意力机制来建模输入与输出间的依赖关系,并支持并行化。论文在机器翻译上进行了实验,Transfomer 达到了更好的效果,因此自提出以来,就得到了极为广泛的关注。

阅读全文 »
0%