我正在阅读论文Attention Is All You Need。
编码器的最后一步似乎是 LayerNorm(relu(WX + B) + X),即添加 + 归一化。这应该会导致X矩阵,其中是编码器输入的长度。
我们如何转换这个X矩阵成键和价值观输入解码器的编码器-解码器注意步骤?
请注意,如果是模型中注意力头的数量,维度和都应该是X. 为了,这意味着我们需要一个X矩阵。
我们是否只是简单地添加一个额外的线性层来学习X权重矩阵?
还是我们使用最后的 Add & Norm 层的输出,并且简单地使用第一个矩阵的列并丢弃其余部分?