根据这篇文章,多头的目的是在头之间进行“梯度分裂”,这是通过随机初始化每个头中 Q、K 和 V 的权重矩阵来实现的。但是我们如何证明这可以解决使用单头的问题呢?
具体来说,梯度的分割如何确保在每个输出注意力向量中不会过分强调(注意力)本身的每个单词?
根据这篇文章,多头的目的是在头之间进行“梯度分裂”,这是通过随机初始化每个头中 Q、K 和 V 的权重矩阵来实现的。但是我们如何证明这可以解决使用单头的问题呢?
具体来说,梯度的分割如何确保在每个输出注意力向量中不会过分强调(注意力)本身的每个单词?
为了看看一个单独的注意力头是否足够,我们可以简单地尝试一下。这正是它在文章“十六个头真的比一个更好吗?”中所做的。(发表于 NeurIPS'2019)。作者得出结论,对于某些任务,尤其是在训练时需要多个头,而在推理时,可以修剪多个头(取决于任务)而不会显着降低性能。