解决Transformer训练难题，微软研究院把Transformer干到了1000层( 三 ) _模型

文章图片

其中， α是一个常数， G_l(x_l , θ_l)是参数为θ_l的第l个Transformer子层（即注意力或前馈网络）的函数。 DeepNet还将残差内部的权重θ_l扩展了β 。
接着，研究者提供了对DeepNet模型更新预期大小（expected magnitude）的估计。
他们可视化了IWSLT-14 De-En翻译数据集上， Post-LN和DeepNet在早期训练阶段的模型更新情况，如下图5所示。可以看到，相较于Post-LN ， DeepNet的模型更新几乎保持恒定。

文章图片

最后，研究者提供理论分析，以表明 DeepNet的更新受到了 DEEPNORM 的常数限制。具体地，他们展示了 DeepNet的预期模型更新受到了适当参数α 和 β的常数限制。研究者的分析基于 SGD 更新，并通过实证证明对 Adam 优化器效果很好。
研究者提供了对编码器-解码器架构的分析，它能够以相同的方式自然地扩展到仅编码器和仅解码器的模型。具体如下图所示，他们将模型更新的目标设定如下：

文章图片

仅编码器（例如 BERT）和仅解码器（例如 GPT）架构的推导能够以相同的方式进行。研究者将步骤总结如下：

文章图片

神经机器翻译该研究验证了DeepNet 在流行的机器翻译基准上的有效性，包括 IWSLT-14 德语-英语 (De-En) 数据集和 WMT-17 英语-德语 (En-De) 数据集。该研究将DeepNet 与多个SOTA深度 Transformer 模型进行比较，包括 DLCL 、NormFormer 、ReZero 、R- Fixup 、T-Fixup 、DS-init 和 Admin 。
表 1 报告了 WMT-17 En-De 翻译数据集上的基线和DeepNet 的结果：

文章图片

图 6 显示了 IWSLT-14 数据集的结果

文章图片

图 7 报告了 WMT-17 验证集的损失曲线

文章图片

大规模多语言神经机器翻译该研究首先使用 OPUS-100 语料库来评估模型。 OPUS100 是一个以英语为中心的多语言语料库，涵盖 100 种语言，是从 OPUS 集合中随机抽取的。该研究将 DeepNet 扩展到 1,000 层，该模型有一个 500 层的编码器、 500 层的解码器、512 个隐藏大小、8 个注意力头和 2,048 维度的前馈层。
表2总结了 DeepNet 和基线的结果。结果表明，增加网络深度可以显着提高 NMT 的翻译质量：48 层的模型比 12 层的模型平均获得 3.2 点的提高。DeepNet 可以成功地将深度扩展到 1,000 层，比基线提高4.4 BLEU 。值得注意的是， DeepNet 只训练了 4 个 epoch ，并且在计算预算更多的情况下，性能可以进一步提高。

文章图片

深度扩展规律：该研究在OPUS100数据集上训练具有{12,20,100,200,1000}层的DeepNet ，图8显示了深度扩展曲线。与双语NMT相比，多语NMT从扩展模型深度受益更多。可以观察到多语 NMT 的 BLEU 值呈对数增长，规律可以写成：L(d) = A log(d) + B ，其中d是深度， A, B是关于其他超参数的常数。

文章图片

更多数据和语言说明：为了探索DeepNet在多语NMT上的局限性，该研究随后使用Schwenk等人提出的CCMatrix扩展训练数据。此外，该研究还扩展了CCAligned 、OPUS 和Tatoeba的数据，以涵盖Flores101评估集的所有语言。最终的数据由102种语言、1932个方向和12B对句子组成。利用这些数据，该研究用100层编码器、100层解码器、1024个隐藏维度、16个头、4096个前馈层中间维度对DeepNet进行训练。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。