“Transformers”这个名字背后的原因是什么,来自Attention is All You Need的 Multi Head Self-Attention-based 神经网络?
我一直在谷歌上搜索这个问题很长时间,但我找不到任何解释。
原始论文的作者没有提供解释,但我怀疑这是以下几种情况的结合: