人工智能 - 在同一个数据集上，transformer 和 RNN+Attention 有什么比较吗？ - 吾爱随笔录

在同一个数据集上，transformer 和 RNN+Attention 有什么比较吗？

人工智能自然语言处理循环神经网络长短期记忆变压器注意力

2021-11-17 17:35:05

我想知道变压器优越性的原因是什么？

我看到有些人认为由于使用了注意力机制，它能够捕获更长的依赖关系。但是，据我所知，您也可以在 RNN 架构中使用注意力，如著名论文中的注意力介绍（此处））。

我想知道变压器优越性的唯一原因是否是因为它们可以高度并行化并在更多数据上进行训练？

是否有任何实验比较在完全相同数量的数据上训练的变压器和 RNN+注意力，比较两者？

1个回答

如果你翻阅 Transformer 的主要介绍性论文（“Attention is all you need”），你可以找到该模型与其他最先进的机器翻译方法的比较：

例如，Deep-Att + PosUnk是一种将 RNN 和注意力用于翻译任务的方法。如您所见，具有自注意力的 Transformer 的训练成本为 $2.3 \cdot 10^{19}$ （翻牌）和 $1.0 \cdot 10^{20}$ (FLOPs) 用于“WMT14 English-to-French”数据集上的“Deep-Att + PosUnk”方法（转换器快 4 倍）。

请注意，BLEU 在这里是一个关键因素（不仅仅是培训成本）。因此，您可以看到变压器的 BLEU‌ 值优于ByteNet（线性时间的神经机器翻译）。虽然 ByteNet 没有采用 RNN，但你可以在其原始论文中找到 ByteNet 与其他“RNN + Attention”方法的比较：

因此，通过 BLEU 分数的传递性，您可以发现转换器在 BLEU 分数方面已经优于其他“RNN‌ + Attention”方法（请检查它们在“WMT14”数据集上的表现）。

其它你可能感兴趣的问题

上一篇有没有一种通用的方法来构建一个寻求同时提取空间和时间信息的神经网络？下一篇Sutton & Barto 书中的方程 7.3 有什么问题？