我正在尝试使用本教程实现变压器模型。在 Transformer 模型的解码器块中,将掩码传递给“在解码器接收的输入中填充和掩码未来的令牌”。这个掩码被添加到注意力权重中。
import tensorflow as tf
def create_look_ahead_mask(size):
mask = 1 - tf.linalg.band_part(tf.ones((size, size)), -1, 0)
return mask
现在我的问题是,这一步(在注意力权重中添加掩码)如何等同于逐个显示要建模的单词?我根本无法直观地理解它的作用。大多数教程甚至都不会提到这一步,因为它非常明显。请帮我理解。谢谢。