我想知道变压器优越性的原因是什么?
我看到有些人认为由于使用了注意力机制,它能够捕获更长的依赖关系。但是,据我所知,您也可以在 RNN 架构中使用注意力,如著名论文中的注意力介绍(此处))。
我想知道变压器优越性的唯一原因是否是因为它们可以高度并行化并在更多数据上进行训练?
是否有任何实验比较在完全相同数量的数据上训练的变压器和 RNN+注意力,比较两者?
我想知道变压器优越性的原因是什么?
我看到有些人认为由于使用了注意力机制,它能够捕获更长的依赖关系。但是,据我所知,您也可以在 RNN 架构中使用注意力,如著名论文中的注意力介绍(此处))。
我想知道变压器优越性的唯一原因是否是因为它们可以高度并行化并在更多数据上进行训练?
是否有任何实验比较在完全相同数量的数据上训练的变压器和 RNN+注意力,比较两者?
如果你翻阅 Transformer 的主要介绍性论文(“Attention is all you need”),你可以找到该模型与其他最先进的机器翻译方法的比较:
例如,Deep-Att + PosUnk是一种将 RNN 和注意力用于翻译任务的方法。如您所见,具有自注意力的 Transformer 的训练成本为(翻牌)和(FLOPs) 用于“WMT14 English-to-French”数据集上的“Deep-Att + PosUnk”方法(转换器快 4 倍)。
请注意,BLEU 在这里是一个关键因素(不仅仅是培训成本)。因此,您可以看到变压器的 BLEU 值优于ByteNet(线性时间的神经机器翻译)。虽然 ByteNet 没有采用 RNN,但你可以在其原始论文中找到 ByteNet 与其他“RNN + Attention”方法的比较:
因此,通过 BLEU 分数的传递性,您可以发现转换器在 BLEU 分数方面已经优于其他“RNN + Attention”方法(请检查它们在“WMT14”数据集上的表现)。