数据挖掘 - 变压器模型中的适当掩蔽 - 吾爱随笔录

数据挖掘 nlp 词嵌入变压器

2021-10-05 18:34:19

关于 Transformer 模型，在矩阵与值张量相乘之前，使用掩码来屏蔽注意力分数（替换为 1e-9）。关于掩蔽，我有 3 个简短的问题，如果你能澄清这些问题，我将不胜感激：

我问是因为看到使用查询、键和值的线性层的实现bias=False。

1个回答

我将作为参考fairseq的Transformer 模型的实现。有了这个假设：

在变压器中，掩膜有两个用途：
- 填充：在多头注意力中，填充标记通过屏蔽它们被显式忽略。这对应于参数key_padding_mask。
- 自注意力因果关系：在解码器中使用的多头注意力块中，此掩码用于强制预测仅关注先前位置的标记，以便在推理时可以自回归地使用模型。这对应于参数attn_mask。
权重掩码是填充和因果掩码的组合，用于知道要填充哪些位置 $-\infty$ 在计算softmax之前，它之后将为零。
您不需要在输出中保留任何零，因为注意力块会处理这一点（参见答案 (1)）。在最初的 Transformer 文章中，注意力在没有偏差的情况下起作用，但偏差不会改变性能。实际上，在fairseq中，默认情况下使用了偏差。
是的，padding_idx当然用于将填充令牌归零。

其它你可能感兴趣的问题