人工智能 - word2vec 中中心词和外部词的向量是什么样的？ - 吾爱随笔录

word2vec 中中心词和外部词的向量是什么样的？

人工智能自然语言处理 word2vec 词嵌入

2021-11-10 12:32:50

在word2vec中，任务是学习预测在一些长文本语料库中哪些词最有可能彼此靠近。对于每个单词 $c$ 在语料库中，模型输出概率分布 $P(O=o|C=c)$ 彼此的可能性有多大 $o$ 在词汇表中是在一定数量的单词之内 $c$ . 我们称之为 $c$ “中心词”和 $o$ “外语”。

我们选择 softmax 分布作为模型的输出：

P (O = o | C = c) = \frac{\exp (u_{0}^{T} v_{c})}{\sum_{w \in Vocab} \exp (u_{w}^{T} v_{c})}

$P(O=o|C=c) = \frac{\exp(\textbf{u}_{0}^{T} \textbf{v}_{c})}{\sum_{w \in \text{Vocab}} \exp(\textbf{u}_{w}^{T} \textbf{v}_c)}$

在哪里 $\textbf{u}_0$ 和 $\textbf{v}_c$ 是分别表示外部和中心词的向量。

问题。向量有什么作用 $\textbf{u}_0$ 和 $\textbf{v}_c$ 看起来像？它们只是一种热编码吗？我们也需要学习它们吗？为什么这很有用？

1个回答

不，词向量不是 one-hot 编码。是的，他们是有学问的。

word2vec 模型的目的实际上是为单词学习密集的、语义上有意义的编码。也就是说，如果你的话 $d$ 维向量，然后每个单词在该向量空间中的位置说明了该单词的含义。这是因为 word2vec 学会以相似的方式表示单词，如果它们在您的语料库中经常靠近在一起。它实现了分布相似性的思想。

给定“中心词”来预测“外部词”的任务以间接的方式完成了所有这些工作。

word2vec 最大化的朴素目标函数是

J = \prod_{t = 1}^{L} \prod_{- m \leq j \leq m j \neq 0} p (u_{t + j} | v_{t})

$J = \prod_{t=1}^L \prod_{-m \leq j \leq m\\ \quad j\neq 0} p(\textbf{u}_{t+j}|\textbf{v}_t)$

在哪里 $L$ 是你的语料库的长度， $m$ 是您要考虑的每个中心词的“半径”， $\textbf{u}_{t+j}$ 是一个外来词，并且 $\textbf{v}_t$ 是一个中心词。

如果我们让 $p(\textbf{u}_{t+j}|\textbf{v}_t)$ 是softmax分布，然后最大化 $J$ 意味着最大化内积 $\textbf{u}_{t+j}^T\textbf{v}_t$ 在 softmax 的分子中。最大化内积意味着使中心词尽可能接近它们的相邻词，为您提供一些语义上有意义的词向量，以在下游 NLP 任务中使用。

斯坦福 CS224N 的这个讲座更详细。

其它你可能感兴趣的问题

上一篇如何检测图像中的相似对象？下一篇如何将纸牌游戏状态编码为神经网络输入