Word2Vec:为什么嵌入的某些维度有解释,为什么嵌入向量的加法/减法有效?

数据挖掘 词嵌入 word2vec nlp
2021-09-29 15:54:34

我正在从以下来源阅读有关 Word2Vec 的信息:http: //jalammar.github.io/illustrated-word2vec/下面是各种词嵌入的热图。在源代码中,据称我们可以根据不同单词的值来了解不同维度的“含义”(它们的解释)。例如,除了WATER之外的每个单词都有一个深蓝色的列,因此该维度可能与代表人的单词有关。 在此处输入图像描述

其次,有一个著名的例子,“king”-“man”+“woman”~=“queen”,其中引号中的词表示该词的嵌入。

我的问题是:

  1. 我不太了解嵌入的任何维度如何继续具有有形的、可解释的含义的机制。我的意思是,嵌入向量的各个组成部分很可能是完全任意的,没有意义,而整个嵌入方法仍然可以在这种情况下工作,因为我们对整个向量感兴趣。是否有在线解释或论文可以让我了解这种现象?
  2. 为什么这种向量的加法/减法为“女王”提供相关的嵌入向量工作得这么好?在一个来源中,解释如下:

这是有效的,因为神经网络最终学习相关术语频率的方式最终被编码到 W2V 矩阵中。类似的关系,例如男人和女人相对出现的差异,最终以 W2V 捕获的某些方式匹配国王和王后的相对出现。

这似乎是一种广泛而模糊的解释。是否有任何在线资源或论文可以解释(或更好地证明)为什么嵌入向量的这种特性应该成立?

2个回答

TL;DR:这里给出了关于为什么 word2vec/GloVe 类比嵌入似乎形成平行四边形,因此可以通过添加/减去嵌入来“解决”的理论/数学解释,如本博客所述w2v 的更多解释在这里给出。


word2vec(或 GloVe 等)词嵌入的维度不是直接可解释的,而是捕获词统计中的相关性,这反映了有意义的语义(例如相似性),因此某些维度可能恰好是可解释的。

一个词的嵌入实际上是该词与所有其他词的共现统计的低秩投影(就像你从 PCA/SVD 中得到的一样——但这需要一个未加权的最小二乘损失函数)。

word2vec 中的投影是概率加权和非线性的,因此很难解释任何维度的“含义”。此外,如果嵌入矩阵W (所有嵌入 w一世 堆叠在一起)由任何旋转矩阵旋转 R, 和 R-1 应用于另一个嵌入矩阵 C,转换后的嵌入表现相同。所以没有一个唯一的解决方案,而是一个等价的解决方案,这意味着嵌入中的值本身并不一定有意义,只有在相对于彼此考虑时才有意义。

类比的理论解释太长,无法在这里总结,但归结为词嵌入捕获对数概率,因此添加嵌入相当于乘以概率,因此是有意义的。我认为包含链接解释是不好的形式,但是两篇链接的研究论文应该永久存在。

嵌入空间的维度只能意外解释。

然而,穿过空间的向量是可以解释的。这就是为什么在嵌入空间中可以进行词类比的原因。词向量的加/减通过嵌入空间描述另一个向量。例如,“king”-“man”+“woman”近似于“queen”向量。

单词始终用于与其他单词的关系。词嵌入可以通过找出哪些词同时出现并将这些词投影到保留最常见出现的低维空间来对这些一致的关系进行建模。