MoE 相关工作、研究进展总结
MoE
今天总结一下最近读过的 MoE 相关的论文、研究进展。
简介
混合专家网络(Mixture-of-Experts,MoE),旨在通过条件计算增加模型容量。具体来说,是对不同的输入激活网络中的不同部分,在控制运算量,即 FLOPs 不变的前提,显著增加模型参数,以达到增加容量的效果。这是一种稀疏网络架构,网络中只有部分参数被激活,与之对应的是传统的密集网络,每个输入都会激活所有参数。
今天总结一下最近读过的 MoE 相关的论文、研究进展。
混合专家网络(Mixture-of-Experts,MoE),旨在通过条件计算增加模型容量。具体来说,是对不同的输入激活网络中的不同部分,在控制运算量,即 FLOPs 不变的前提,显著增加模型参数,以达到增加容量的效果。这是一种稀疏网络架构,网络中只有部分参数被激活,与之对应的是传统的密集网络,每个输入都会激活所有参数。
上篇回顾了经典论文专家混合网络 MoE,今天读一篇 Google 团队在 22 年 2 月出炉的大作《ST-MoE: Designing Stable and Transferable Sparse Expert Models》,旨在解决训练过程中的不稳定性以及微调过程中的质量不确定性。论文提出的 269B 的稀疏模型,计算成本与 32B 的密集模型相当。稀疏模型第一次在迁移学习中实现了 SOTA。
今天来读一篇关于条件计算的论文,《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,收录于 2017 年 ICLR。神经网络模型的容量( capacity),例如模型从语料中学习的知识,受限于模型的参数规模。通常,每个样本都要经历到模型所有参数的计算中。增加模型容量意味着成比例的计算性能下降。本文提出了一种条件计算的方法,对每个样本只激活部分参数,可以在不成比例地增加计算量的情况下显着增加模型容量,实现了超过 1000 倍的容量提升,在大型语言建模和机器翻译基准上,这些模型以更低的计算成本实现了新的 SOTA。
《Knowledge-Grounded Dialogue Generation with Pre-trained Language Models》是由北大发表的论文,旨在通过预训练的语言模型进行知识对话,论文收录于 EMNLP 2020 主会。代码公开在 zhaoxlpku/KnowledGPT (github.com)。论文通过在预训练语言模型(如 GPT)外配置知识选择模块,从非结构化的知识文本中选择知识,并通过一种无监督的方法联合优化知识选择和知识对话生成。论文提出的 KnowLEDGPT 在 Wizard 和 CMU DoG 两个数据集上的自动 & 人工评估实现了 SOTA。
XLNET 是由卡耐基梅隆大学和谷歌于 2019 年提出的自回归预训练模型,论文名为《XLNet: Generalized Autoregressive Pretraining for Language Understanding》,收录于 2019 NIPS 中。其动机是为了解决 BERT 面临的两个问题:忽视了 [MASK] token 间的依赖关系以及 [MASK] 导致的预训练 - 微调差异。 XLNet 在 20 项任务上的表现优于 BERT,通常大幅度提高,包括问答、自然语言推理、情感分析和文档排序。