数据挖掘 - 为什么位置嵌入有效？ - 吾爱随笔录

在论文“Convolutional Sequence to Sequence Learning”和 “Attention Is All You Need”中，简单地将位置嵌入添加到输入词嵌入中，以使模型了解输入序列的顺序。这些位置嵌入是根据单词在序列中的绝对位置和维度从正弦信号生成的。我们获得了与词嵌入相同维度的位置嵌入，我们简单地将这两者相加。

我可以理解这有助于模型了解输入的顺序，但我对添加这两个也可能会删除单词嵌入中包含的一些信息这一事实感到非常不安。您是否解释了为什么这可能有效（或无效）？有没有关于它的文献？