数据挖掘 - 为什么 Word2vec 被视为一种神经嵌入？ - 吾爱随笔录

在skip-gram模型中，一个词的概率 $w$ 是上下文词集的一部分 $\{w_o^{(i)}\}$ $(i= 1:m)$ 在哪里 $m$ 是围绕中心词的上下文窗口，由下式给出：

p (w_{o} | w_{c}) = \frac{\exp (\vec{u_{o}} \cdot \vec{v_{c})}}{\sum_{i \in V} \exp (\vec{u_{i}} \cdot \vec{v_{c})}}

$p(w_o | w_c) = \frac{\exp{(\vec{u_o}\cdot \vec{v_c)}}}{\sum_{i\in V}\exp{(\vec{u_i}\cdot \vec{v_c)}}}$

在哪里 $V$ 是训练集中的单词数， $\vec{u_i}$ 是上下文词的词嵌入，并且 $\vec{v_i}$ 是中心词的词嵌入。

但是这种类型的模型定义了输入的线性变换，类似于在多项逻辑回归中发现的变换：

p (y = c | \vec{x}; \vec{θ}) = \frac{\exp (\vec{w_{c}} \cdot \vec{x})}{\sum_{i \in N} \exp (\vec{w_{i}} \cdot \vec{x})}

$p(y = c|\vec{x};\vec\theta) = \frac{\exp{(\vec{w_c}\cdot \vec{x})}}{\sum_{i \in N}\exp{(\vec{w_i}\cdot \vec x)}}$

我知道真正的诀窍在于如何制定损失函数，在skip-gram模型中，不是将每个类（每个单词）的概率乘以单词的子集（上下文）。然而，如果这是一个神经网络模型，转换是线性的而不是非线性的。

我知道你可以在 DNN 中进行一些线性变换（实际上是线性组合到非线性组合到线性......），但我认为使用术语 DNN 和构建视觉表示的主要目的是你有一些非线性如果您仔细选择，可以将转换视为介于 -1,1 或 0,1 之间的函数，并且可以将其视为“激活函数”，然后诱导这种神经网络图形表示事物。

但是，对于 word2vec 和 skipgram 模型，我无法掌握这一点。任何人都可以对此有所了解吗？