一隅

XLNET：基于置换语言任务的自回归模型

发表于 2022-04-17 更新于 2022-04-18 分类于自然语言处理，预训练模型本文字数： 5.5k 阅读时长 ≈ 10 分钟

摘要

XLNET 是由卡耐基梅隆大学和谷歌于 2019 年提出的自回归预训练模型，论文名为《XLNet: Generalized Autoregressive Pretraining for Language Understanding》，收录于 2019 NIPS 中。其动机是为了解决 BERT 面临的两个问题：忽视了 [MASK] token 间的依赖关系以及 [MASK] 导致的预训练 - 微调差异。 XLNet 在 20 项任务上的表现优于 BERT，通常大幅度提高，包括问答、自然语言推理、情感分析和文档排序。

阅读全文 »

ACM 2021: 生物医学域的语言模型

发表于 2022-04-10 分类于自然语言处理，预训练模型本文字数： 3.1k 阅读时长 ≈ 6 分钟

摘要

《Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing》为微软研究院发表的论文，收录于 2021 年 ACM 中。论文旨在探讨，特定领域的预训练也可以从通用领域语言模型开始受益，这一假设是否适用于具有大规模未标记数据的领域（例如生物医学）。论文证实，相较于从通用领域继续预训练，从头开始训练预训练模型能够获得更好的性能。此外，论文还提出了一个新的生物医学 NLP 基准 BLURB，并创建了排行榜。

阅读全文 »

Sentence-BERT: 减小语义相似度的计算开销

发表于 2022-04-04 分类于自然语言处理，语义相似度本文字数： 4.1k 阅读时长 ≈ 7 分钟

摘要

BERT、RoBERTa 此类预训练模型虽然能够提升语义文本相似度（STS）任务的性能，但是在某些场景下会带来巨大的计算开销。例如，利用 BERT 从 10000 个句子的集合中找到最相似的两个句子，需要进行约 5000 万次推理，大约 65 个小时。因此，《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》，来自 EMNLP 2019，提出了 Sentence-BERT（SBERT），使用孪生或三胞胎 BERT + 余弦相似度计算语义相似度。可以将上述例子的 65 小时降低至 5 秒钟，同时保证准确率。STS 和迁移任务上的实验证明，SBERT 和 SRoBERTa 已经成为句向量标识的 SOTA 方法。

阅读全文 »

有错误论文 - ACL2020：交叉 VAE 用于答案检索

发表于 2022-03-31 更新于 2022-11-29 分类于自然语言处理，问答本文字数： 2.7k 阅读时长 ≈ 5 分钟

摘要

最近读了一篇想法有趣、公式有错误、复现不出来的 ACL 论文。发出来分享一下。希望大家也不要迷信 ACL 论文，读论文过程中保持独立思考。

《Crossing Variational Autoencoders for Answer Retrieval》提出了一种基于交叉 VAE 的答案检索方法，通过交叉 VAE 来对齐答案和问题之间的语义。论文收录于 ACL 2020 中。

阅读全文 »

智源 EVA2.0: 聊天机器人 EVA 加强版

发表于 2022-03-24 更新于 2022-03-27 分类于自然语言处理，对话生成，预训练模型本文字数： 3.7k 阅读时长 ≈ 7 分钟

简介

EVA 2.0 是智源、清华在论文《EVA2.0: Investigating Open-Domain Chinese Dialogue Systems withLarge-Scale Pre-Training》中提出的对话模型，论文于 3.17 登陆 arxiv，也就是一周前。EVA2.0 旨在探究数据质量、模型架构、训练方法、解码策略等因素的影响，而不是进一步扩张模型和数据。经过以上优化后，仅 300M 参数的 EVA 2.0 就达到了 2.8B 的 EVA 1.0 的水平。代码和模型见 thu-coai/EVA。

阅读全文 »