PyTorch Lightning: 让 PyTorch 更为易用

发表于 2022-08-11 分类于代码本文字数： 3.6k 阅读时长 ≈ 7 分钟

摘要

今天来介绍一个很好用的深度学习框架，PyTorch Lightning。从名字就可以看出，它是基于 PyTorch 的框架。它的核心思想是，将学术代码（模型定义、前向 / 反向、优化器、验证等）与工程代码（for-loop，保存、tensorboard 日志、训练策略等）解耦开来，使得代码更为简洁清晰。工程代码经常会出现在深度学习代码中，PyTorch Lightning 对这部分逻辑进行了封装，只需要在 Trainer 类中简单设置即可调用，无需重复造轮子。

阅读全文 »

MoE 相关工作、研究进展总结

发表于 2022-07-03 更新于 2022-11-29 分类于自然语言处理，条件计算本文字数： 4.1k 阅读时长 ≈ 7 分钟

MoE

今天总结一下最近读过的 MoE 相关的论文、研究进展。

简介

混合专家网络（Mixture-of-Experts，MoE），旨在通过条件计算增加模型容量。具体来说，是对不同的输入激活网络中的不同部分，在控制运算量，即 FLOPs 不变的前提，显著增加模型参数，以达到增加容量的效果。这是一种稀疏网络架构，网络中只有部分参数被激活，与之对应的是传统的密集网络，每个输入都会激活所有参数。

阅读全文 »

ST-MoE: 高效稀疏专家网络

发表于 2022-06-12 更新于 2022-08-11 分类于自然语言处理，条件计算本文字数： 3.8k 阅读时长 ≈ 7 分钟

摘要

上篇回顾了经典论文专家混合网络 MoE，今天读一篇 Google 团队在 22 年 2 月出炉的大作《ST-MoE: Designing Stable and Transferable Sparse Expert Models》，旨在解决训练过程中的不稳定性以及微调过程中的质量不确定性。论文提出的 269B 的稀疏模型，计算成本与 32B 的密集模型相当。稀疏模型第一次在迁移学习中实现了 SOTA。

阅读全文 »

MoE：通过条件计算增加模型容量

发表于 2022-06-05 更新于 2022-08-11 分类于自然语言处理，条件计算本文字数： 4.9k 阅读时长 ≈ 9 分钟

摘要

今天来读一篇关于条件计算的论文，《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》，收录于 2017 年 ICLR。神经网络模型的容量（ capacity），例如模型从语料中学习的知识，受限于模型的参数规模。通常，每个样本都要经历到模型所有参数的计算中。增加模型容量意味着成比例的计算性能下降。本文提出了一种条件计算的方法，对每个样本只激活部分参数，可以在不成比例地增加计算量的情况下显着增加模型容量，实现了超过 1000 倍的容量提升，在大型语言建模和机器翻译基准上，这些模型以更低的计算成本实现了新的 SOTA。

阅读全文 »

KnowledGPT: 基于预训练语言模型的知识对话

发表于 2022-05-03 分类于自然语言处理，对话生成，知识对话本文字数： 6.2k 阅读时长 ≈ 11 分钟

摘要

《Knowledge-Grounded Dialogue Generation with Pre-trained Language Models》是由北大发表的论文，旨在通过预训练的语言模型进行知识对话，论文收录于 EMNLP 2020 主会。代码公开在 zhaoxlpku/KnowledGPT (github.com)。论文通过在预训练语言模型（如 GPT）外配置知识选择模块，从非结构化的知识文本中选择知识，并通过一种无监督的方法联合优化知识选择和知识对话生成。论文提出的 KnowLEDGPT 在 Wizard 和 CMU DoG 两个数据集上的自动 & 人工评估实现了 SOTA。

阅读全文 »