机器算法验证 - 关于transformer模型中的masked multi-head attention和层归一化 - 吾爱随笔录

关于transformer模型中的masked multi-head attention和层归一化

机器算法验证神经网络深度学习正常化注意力

2022-03-13 12:33:39

我来阅读Vaswani 的Attention is All You Need。我想到了两个问题：

1. 如何屏蔽decoder multi-head attention中的非法连接？

它说通过将某些东西设置为负无穷大，他们可以阻止向左的信息流。他们是否掩盖了注意力权重或前一层的隐藏状态？

2. 为层标准化设置一些任意的max_length可以吗？

假设我将 max_len 设置为 200。每当出现比这更短的句子时，LayerNorm 都会进行白化（即减去均值并除以标准差）和线性映射。我认为问题是零填充极大地影响了美白过程。如果一个批次由短句组成，例如 10 或 20，则零填充几乎占整个批次的 80%，这导致白化使数据更接近零范数。这是正统的方法吗？还是有其他做法？

1个回答

这在 Vaswani 等人的Attention is All You Need论文中得到了回答（另请参阅其中一位合著者的演讲录音，以及这三个博客：here、here和here）。

如何在解码器多头注意力中屏蔽非法连接？

这很简单。注意力可以定义为

A t t e n t i o n (Q, K, V) = s o f t m a x (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\Big(\frac{QK^T}{\sqrt{d_k}}\Big)V$

其中是查询，是键，是值，是缩放常数，等于键维数的平方根。乘积和中的单词之间的相似度矩阵（其中每个单词都是使用嵌入编码的行）。在编码器中，每个都来自同一个文档。在解码器中，来自目标文档，而来自源文档。 $Q$ $K$ $V$ $\sqrt{d_k}$ $QK^T$ $Q$ $K$ $Q,K,V$ $Q$ $K,V$

在 Transformer 网络（和类似网络）中，没有记录时间依赖性的直接机制。它被间接记录在嵌入中（通过对词嵌入和位置嵌入求和），但代价是在进行预测时会泄露“未来”值。请注意，在中，我们查看了中的每个单词与中的每个单词之间的相似性。为了防止将来泄漏，我们使用掩蔽。这是通过执行和一个的上三角矩阵的逐点乘积来完成的（如下图所示，图像源）。 $QK^T$ $Q$ $K$ $QK^T$

这会将单词与出现在源单词之后（“未来”）的单词之间的相似性归零，从而防止预测依赖于在预测之前知道答案。由于我们删除了这些信息，因此模型无法使用它，我们保证只考虑与前面单词的相似性。

可以为层标准化设置一些任意的 max_length 吗？

在本文中，所有输入和输出的大小都是固定的，如果这是您所要求的。但是我不明白为什么这会是一个问题，因为标准化所做的是它使特征在层之间具有相同的均值和标准偏差。因此，如果某些东西在本地相对较大，则将映射到全球认为较大的东西。有关详细信息，请参阅 Ba 等人的层归一化论文。此外，这适用于每个特征，因此多余的零没有影响。 $d_\text{model}$

其它你可能感兴趣的问题

上一篇逻辑回归 BIC：正确的 N 是多少？下一篇将数据拟合到参数分布