我正在研究Attention is All you Need,我对解码器中的屏蔽有疑问。据称,掩蔽用于确保模型在未来(尚未预测)不会关注任何标记,因此它可以在推理过程中自回归使用。
我不明白在推理过程中如何使用掩蔽。当给编码器一个看不见的样本而没有地面实况输出或预测时,在我看来,没有什么可以掩盖的,因为除了解码器已经产生的输出标记之外,没有任何输出标记。我对掩蔽的理解正确吗?
谢谢!
我正在研究Attention is All you Need,我对解码器中的屏蔽有疑问。据称,掩蔽用于确保模型在未来(尚未预测)不会关注任何标记,因此它可以在推理过程中自回归使用。
我不明白在推理过程中如何使用掩蔽。当给编码器一个看不见的样本而没有地面实况输出或预测时,在我看来,没有什么可以掩盖的,因为除了解码器已经产生的输出标记之外,没有任何输出标记。我对掩蔽的理解正确吗?
谢谢!
诀窍是您在推理时不需要屏蔽。屏蔽的目的是防止解码器状态处理与“将来”标记对应的位置,即那些在推理时不知道的位置,因为它们还没有生成。
在推理时,这不再是问题,因为没有来自未来的令牌,还没有生成。