MoE：通过条件计算增加模型容量

发表于 2022-06-05 更新于 2022-08-11 分类于自然语言处理，条件计算阅读次数：本文字数： 4.9k 阅读时长 ≈ 9 分钟

摘要

今天来读一篇关于条件计算的论文，《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》，收录于 2017 年 ICLR。神经网络模型的容量（ capacity），例如模型从语料中学习的知识，受限于模型的参数规模。通常，每个样本都要经历到模型所有参数的计算中。增加模型容量意味着成比例的计算性能下降。本文提出了一种条件计算的方法，对每个样本只激活部分参数，可以在不成比例地增加计算量的情况下显着增加模型容量，实现了超过 1000 倍的容量提升，在大型语言建模和机器翻译基准上，这些模型以更低的计算成本实现了新的 SOTA。

具体而言，论文引入了稀疏门控混合专家层（MoE，Sparsely-Gated Mixture-of-Experts Layer），由前馈神经网络和门控网络组成。门控网络用于选择专家的稀疏组合，处理每个输入。网络的所有部分都通过反向传播联合训练。

介绍

正如前文所说，模型的容量受限于参数规模，简单扩大参数会导致训练成本大致呈二次增长。条件计算基于每个样本选择网络的不同部分激活。用于选择的门控决策可以是二元的、稀疏的、连续的、随机的或确定的。各种形式的强化学习和反向传播策略可用于训练门控决策。然而，该方法面临很多的挑战：

分支低效：计算设备，尤其 GPU，计算要比分支快得多。熟悉流水线 CPU 的同学应该知道，分支的分支错误惩罚会导致数个时钟周期的停顿，严重影响计算效率
批大小受限：条件计算减少了网络条件活动块的 batch size
网络带宽（IO）受限：GPU 的计算能力往往是网络带宽的数千倍，嵌入层，也可以看做一种条件计算，往往需要网络发送，这种参数交互受到网络带宽而非计算能力的限制
额外损失项：可能需要额外的损失项控制每个样本的网络稀疏程度，在模型负载和质量间做出平衡。
大规模数据的依赖。模型容量的扩大需要大规模数据集训练，现有的一些条件计算工作只使用了最多 60w 数据，难以为万亿计参数的模型提供足够的监督信号。

论文提出的稀疏门控专家层 MoE，由许多专家组成，每个专家都是一个简单的前馈神经网络，以及一个可训练的门控网络，该网络选择专家的稀疏组合来处理每个输入。结构图示意如下，其中门控网络从中选择了两个，处理样本。

虽然技术是通用的，但论文主要关注在语言模型、机器翻译任务上，这些任务可以从模型规模受益。基于此，论文在堆叠的 LSTM 层上应用了一个 MoE 卷积，如上图所示。对文本的不同位置调用一次 MoE，选择不同的专家组合。不同的专家组合根据语法和语义变得高度专业化。

MoE 结构

MoE 由一个门控网络 \(G\)、n 个专家网络 \(E_1,E_2,\dots,E_n\) 组成。门控网络的输出是一个 \(n\) 维的向量。每个专家都是一个前馈网络，输入和输出的维度一致。用 \(G(x),E_i(x)\) 分别代表门控网络、第 i 个专家网络的输出，\(x\) 为专家网络的输入。MoE 的输出为专家网络输出的加权和，权重为门控网络对应维度的元素值，公式如下： \[ y=\sum_{i=1}^nG(x)_iE_i(x) \] 稀疏性体现在 \(G(x)\) 上，如果 \(G(x)_i\) 为 0，就不需要计算 \(E_i(x)\) 了。在实验中，有上千个专家网络，但是只需要计算少部分。如果专家的数量过多，可以通过分层 MoE 减少分支。分层 MoE 中，每个专家都是带有自己门控网络的二级专家组合。下面介绍稀疏门控是如何实现的。

Softmax 门控

简单的非稀疏门控可以通过 Softmax 函数实现，公式如下： \[ G_\sigma(x)=Softmax(x\cdot W_g) \]

噪声 Top-k 门控

在 Softmax 门控网络中，添加稀疏性可提高计算效率，添加噪声可以实现负载均衡，随机性使得每个专家都有激活的机会。具体是通过在取 Softmax 函数前，添加可调高斯噪声，然后只保留前 k 个值，其余置 \(-\infty\)，在进行 Softmax 后，对应的门控信号就为 0,。可调高斯噪声，是指标准正态分布的噪声乘以可训练的噪声权重 \(Softplus(x\cdot W_{noise})\)。公式如下： \[ G(x)=Softmax(KeepTopK(H(x),k)) \] \[ H(x)_i=(x\cdot W_g)_i+StandardNorm()\cdot Softplus((x\cdot W_{noise})_i) \] \[ KeepTopK (v,k)_i=\begin {cases} v_i,\ 如果 v_i 是前 k 大的元素 \\ -\infty,\ 其他 \end {cases} \]

训练门控网络

通过简单的反向传播以及模型的其余部分来训练门控网络。如果选择 k > 1，则前 k 个专家的门值相对于门控网络的权重具有非零导数。梯度通过门控网络反向传播到其输入。

解决性能挑战

批大小缩减

大的 batch size 对于计算效率是非常重要的，能够减小参数加载和更新的开销。如果门控网络每次只从专家网络中选择 k 个，每个专家对应的 batch size 会小得多，这会使得参数的更新更为低效。虽然这个问题可以通过暴力加大 batch size 缓解，但这又受限于 GPU 的显存限制。

论文提出了以下两种增加 batch size 的技术：

混合数据并行和模型并行。传统的数据并行分布式训练中，不同设备上的多个模型副本异步处理不同 batch 数据，并通过一组参数服务器同步参数。论文提出同步的数据并行策略，不同设备数据同时组合应用于 MoE 层。模型标准层、门控网络都遵循平常的数据并行设置，不同的是，MoE 的每个专家只保留一份共享副本。每个专家都会收到一个组合批次，该批次包含数据并行中与该专家相关的批次。不同的设备上保存着不同的专家子集。所以这是一种混合数据并行和模型并行的方法。模型并行的设置猜测是为了减少显存开销，大量专家的情况下，每个设备上不激活的专家还是很占显存的。

利用卷积性。MoE 可以类似卷积操作，施加在每层的不同时间步上应用 MoE，相当于增大了 batch size。但对于 RNN 此类网络，其自回归性使得卷积操作无法进行。

网络带宽

分布式计算中另一个主要的性能问题是网络带宽。网络中，专家的输入和输出通过网络发送。为了保持计算效率，专家的计算量与其 IO（输入和输出）的比值必须超过计算设备的计算量与网络容量的比值。对于 GPU，这可能是数千比一。实验中，专家是仅有一个隐藏层的感知机，权重矩阵的大小为 input_size×hidden_size 和 hidden_size×output_size，因此计算与输入和输出的比率等于隐藏层的大小。因此，可以简单地通过使用更大的隐藏层或更多隐藏层来提高计算效率。

其实，也很容易理解，增加内部的计算量当然就相对降低了 IO 开销。

平衡专家利用率

根据论文观察结果，门控网络倾向于为特定的少数专家提供较大的权重。事实上，刚开始受到关注的某些专家会训练地更快，从而会更容易被选择，我愿称其为神经网络的马太效应。为了避免这种情况，论文使用了一种软间隔的方法。定义专家的重要性为 batch 数据中在该专家上的门控值之和。额外损失项 \(L_{importance}\)，定义为重要性的变异系数的平方乘以缩放系数 \(w_{impotance}\)。公式如下： \[ Importance(X)=\sum_{x\in X}G(x) \]

\[ L_{importance}(X)=w_{importance}\cdot CV(Importance(X))^2 \] 变异系数（coefficient of variation，CV），定义为标准差和平均值之比，是概率分布离散程度的归一化度量。当有多个变量进行离散程度比较时，标准差会受到量纲的影响，而变异系数可以消除这种影响。上述损失类似 L2 正则项，倾向于让专家有相同的重要性，但是，专家收到的样本数量可能不同，例如一位专家收到少而权重大的数据，另一个专家收到多而权重小的数据。这会导致分布式硬件出现内存、性能的问题。

为解决上述问题，论文还引入了一个损失 \(L_{load}\)。公式如下： \[ P(x,i)=\Phi(\frac{(x\cdot W_g)_i-kth\_excluding(H(x),k,i)}{Softplus((x\cdot W_{noise})_i)}) \]

\[ Load(X)_i=\sum_{x\in X}P(x,i) \]

\[ L_{load}(X)=w_{load}\cdot CV(Load(X))^2 \]

其中，\(P(x,i)\) 定义为 \(G(x)_i\) 不为 0 的概率，\(kth_excluding(H(x),k,i)\) 为除了第 \(i\) 个元素外，\(H(x)\) 中最大的第 \(k\) 个元素的值，\(\Phi\) 为标准正态分布的概率分布函数。

\(L_{load}\) 粗看可能较难理解，将其转化为下式，其中 \((x\cdot W_g)_{a_k}\) 为第 k 大的门控值。可以看出，上式来自 \(H(x)\) 的计算，\(H(x)\) 中添加了高斯噪声平滑项，\(P(x,i)\) 实际计算得到的是专家 \(i\) 和被选中的权值最小的专家（第 k 个）门控值间的差异，并引入高斯噪声，通过标准正态的 CDF 映射得到选中第 \(i\) 专家的概率。再通过变异系数计算损失，与 \(L_{importance}\) 类似。 \[ P(x,i)=\Phi(\frac{(x\cdot W_g)_i-(x\cdot W_g)_{a_k}}{Softplus((x\cdot W_{noise})_i)}-\epsilon) \]

实验

亿级语言模型

数据集：约 8.29 亿 token 的新闻语料，词表约 80w
先前 SOTA：若干个堆叠的 LSTM 网络组成，参数从 200w 到 1.51 亿
本文模型：两层 LSTM 堆叠，中间有一个 MoE 层，MoE 层的大小、专家数量有所不同（4-4096）。每个专家约 100w 参数，选择的专家数 k=4

为了研究增加容量的效果，论文训练了一系列 MoE 模型，并控制它们的计算成本（约时间步每 800w 次加乘操作，该指标记作 ops/timestap）。

下图展示了该任务上 LSTM 和 MoE 的比较结果。左侧图展示了同样计算成本下，模型的困惑度与参数的关系。基线 LSTM 模型只存在图左上方，少参数而高困惑度。展平的 MoE 与分层 MoE 能在同样参数规模下，获得更低的困惑度。右图为 40 亿参数下，困惑度与计算成本的关系。

下表展示了详细的对比结果，高计算成本的 MoE 能够显著降低困惑度。要注意的是，虽然 MoE 参数最多 30 倍于基础模型，但是每个样本只有 4 个专家处于激活态，这使得模型间的实际激活的参数、计算性能是可比的。

千亿谷歌语料

与上述实验配置、结果相似。不过随着 MoE 层中的参数数量超过 10 亿，增加额外容量似乎会产生递减收益，

单语对机器翻译

WMT'14 翻译数据集，以英法翻译结果为例。此任务使用的模型是 GNMT 模型的修改版本。为了减少计算量，模型的编码器和解码器中的 LSTM 层数分别从 9 层和 8 层减少到 3 层和 2 层。论文在编码器（第 2 层和第 3 层之间）和解码器（第 1 层和第 2 层之间）中都插入了 MoE 层。每个 MoE 层包含多达 2048 位专家，每个专家大约有 200 万个参数，总共为模型添加了大约 80 亿个参数。

多语对翻译

传统方法，使用同一模型进行多语翻译的性能，要差于训练多个模型分别处理单语对翻译。这是由于多个模型提供了更大的模型容量。论文用单一的 MoE 重复了这个实验。MoE 模型在开发集比多语言 GNMT 模型。在 BLEU 得分上，MoE 模型在 12 个语言对中的 11 个上显着击败了多语言 GNMT 模型（高达 5.84 分），甚至在 12 个语言对中的 8 个上击败了单语 GNMT 模型。

总结

这篇论文提出了一种条件计算的方法，并解决了其在实践中遇到的种种挑战（负载均衡、分布式性能等）。在语言模型、机器翻译任务上，证实了其提升模型容量同时保证计算性能的能力。

参考

变异系数 - 维基百科，自由的百科全书 (wikipedia.org)