数据挖掘 - 训练或推理期间的变压器掩蔽？ - 吾爱随笔录

数据挖掘 nlp 训练生成模型变压器注意机制

2022-02-26 14:44:36

我正在研究Attention is All you Need，我对解码器中的屏蔽有疑问。据称，掩蔽用于确保模型在未来（尚未预测）不会关注任何标记，因此它可以在推理过程中自回归使用。

我不明白在推理过程中如何使用掩蔽。当给编码器一个看不见的样本而没有地面实况输出或预测时，在我看来，没有什么可以掩盖的，因为除了解码器已经产生的输出标记之外，没有任何输出标记。我对掩蔽的理解正确吗？

谢谢！

1个回答

诀窍是您在推理时不需要屏蔽。屏蔽的目的是防止解码器状态处理与“将来”标记对应的位置，即那些在推理时不知道的位置，因为它们还没有生成。

在推理时，这不再是问题，因为没有来自未来的令牌，还没有生成。

其它你可能感兴趣的问题