训练或推理期间的变压器掩蔽?

数据挖掘 nlp 训练 生成模型 变压器 注意机制
2022-02-26 14:44:36

我正在研究Attention is All you Need,我对解码器中的屏蔽有疑问。据称,掩蔽用于确保模型在未来(尚未预测)不会关注任何标记,因此它可以在推理过程中自回归使用。

我不明白在推理过程中如何使用掩蔽。当给编码器一个看不见的样本而没有地面实况输出或预测时,在我看来,没有什么可以掩盖的,因为除了解码器已经产生的输出标记之外,没有任何输出标记。我对掩蔽的理解正确吗?

谢谢!

1个回答

诀窍是您在推理时不需要屏蔽。屏蔽的目的是防止解码器状态处理与“将来”标记对应的位置,即那些在推理时不知道的位置,因为它们还没有生成。

在推理时,这不再是问题,因为没有来自未来的令牌,还没有生成。