变压器解码器输出 - 它是如何线性的?

数据挖掘 深度学习 变压器 注意机制
2021-10-07 04:39:37

我不太确定解码器输出是如何扁平化为单个向量的。据我了解,如果我们输入长度为 N 的编码器,它的输出是 N x 个单位(例如 N x 1000),我们输入长度为 M 的句子的解码器,解码器的输出将给我们 M x单位输出。M 不是固定的(M 应该是解码器原始输入的长度)并且会在不同的推理步骤中发生变化。我们如何从这里转到单个向量? 在此处输入图像描述 “注意力就是你所需要的”的屏幕截图

1个回答

我不太确定解码器输出是如何扁平化为单个向量的

就是这样。它没有被展平为单个向量。线性变换适用于所有序列中的向量。这些向量具有固定的维度,这就是它起作用的原因。