Word2vec 为给定的单词分配一个 N 维向量(这可以被认为是一种降维形式)。
事实证明,至少在一些典型的例子中,向量算术似乎可以直观地工作。例如“国王 + 女人 - 男人 = 女王”。
这些项都是 N 维向量。现在,为简单起见,假设,, 那么上面的表达式可以写成.
在这个(人为的)示例中,最后一个维度(国王/男人=2,女王/女人=0)暗示了性别的语义概念。除了语义,给定的维度可能“意味着”语音的一部分、第一个字母,或者算法可能已经锁定的任何特征或特征集。然而,任何感知到的单一维度的“意义”很可能只是一个简单的巧合。
如果我们只选择一个维度,那么该维度本身是否传达了一些可预测或可确定的信息?或者这纯粹是算法的“随机”伪影,只有完整的 N 维向量距离很重要?