自注意力中的权重矩阵是什么?

人工智能 神经网络 变压器 注意力
2021-11-04 00:16:00

我最近一直在研究 self-attention,在我看到的文章中,他们都在谈论注意力中的“权重”。我的理解是,self-attention 中的权重与神经网络中的权重不同。

从这篇文章http://peterbloem.nl/blog/transformers的附加技巧部分,它提到,

query是query权重矩阵和词向量 ie, q = W(q)x的点积,key是key权重矩阵和词向量的点积,k = W(k)x对于它的值也是如此v = W(v)x所以我的问题是,权重矩阵从何而来?

1个回答

答案其实很简单:它们都是随机初始化的。因此,从所有意图和目的来看,它们都是神经网络的“正常”权重。

这也是为什么在原始论文中作者测试了具有单个和多个注意力头的几种设置的原因。如果这些矩阵在某种程度上是“特殊的”或预先确定的,它们都将用于相同的目的。相反,由于它们的随机初始化,每个注意力头都学会了为解决不同的任务做出贡献,如图 3 和图 4 所示。