我最近一直在研究 self-attention,在我看到的文章中,他们都在谈论注意力中的“权重”。我的理解是,self-attention 中的权重与神经网络中的权重不同。
从这篇文章http://peterbloem.nl/blog/transformers的附加技巧部分,它提到,
query是query权重矩阵和词向量
ie, q = W(q)x的点积,key是key权重矩阵和词向量的点积,k = W(k)x对于它的值也是如此v = W(v)x。所以我的问题是,权重矩阵从何而来?