向量空间中的各个维度是否有意义?

人工智能 自然语言处理 word2vec 词嵌入
2021-10-31 12:42:23

Word2vec 为给定的单词分配一个 N 维向量(这可以被认为是一种降维形式)。

事实证明,至少在一些典型的例子中,向量算术似乎可以直观地工作。例如“国王 + 女人 - 男人 = 女王”。

这些项都是 N 维向量。现在,为简单起见,假设N=3,king=[0,1,2],woman=[1,1,0],man=[2,2,2],queen=[1,0,0], 那么上面的表达式可以写成[0,1,2]+[1,1,0][2,2,2]=[1,0,0].

在这个(人为的)示例中,最后一个维度(国王/男人=2,女王/女人=0)暗示了性别的语义概念。除了语义,给定的维度可能“意味着”语音的一部分、第一个字母,或者算法可能已经锁定的任何特征或特征集。然而,任何感知到的单一维度的“意义”很可能只是一个简单的巧合。

如果我们只选择一个维度,那么该维度本身是否传达了一些可预测或可确定的信息?或者这纯粹是算法的“随机”伪影,只有完整的 N 维向量距离很重要?

1个回答

向量空间中的各个维度是否有意义?

IIRC,某些维度是可以解释的,但总的来说情况并非如此。此外,它实际上是在学习实际的表示还是只是它的近似值也是有争议的。但在任何情况下,它在某些边缘情况之外都不是很可靠。

如果我们只选择一个维度,那么该维度本身是否传达了一些可预测或可确定的信息?

是的,但是关于“意义”方面的信息是什么就不太清楚了。您可以说,如果在某个维度上,两个向量之间的距离为 0,那么您对实际距离的估计比猜测要好。