在论文Attention Is All You Need中,这部分让我感到困惑:
在我们的模型中,我们在两个嵌入层 [在编码部分] 和 pre-softmax 线性变换 [解码部分的输出] 之间共享相同的权重矩阵
重量不应该不同,而不是相同吗?以下是我的理解:
为简单起见,让我们使用我们拥有的英法翻译任务我们词典中的英语单词数量和法语单词的数量。
在编码层,输入标记是Xone-hot 向量,并嵌入一个X学习嵌入矩阵。
在解码层的输出中,最后一步是带有权重矩阵的线性变换X,然后应用softmax得到每个法语单词的概率,并选择概率最高的法语单词。
这是怎么回事X输入嵌入矩阵与X解码输出线性矩阵?对我来说,通过训练数据相互独立地学习这两个矩阵似乎更自然,对吧?还是我误解了论文?