为什么 Word2vec 被视为一种神经嵌入?

数据挖掘 神经网络 逻辑回归 词嵌入 word2vec 多标签分类
2022-02-28 17:05:11

在skip-gram模型中,一个词的概率w是上下文词集的一部分{wo(i)} (i=1:m)在哪里m是围绕中心词的上下文窗口,由下式给出:

p(wo|wc)=exp(uovc)iVexp(uivc)

在哪里V是训练集中的单词数,ui是上下文词的词嵌入,并且vi是中心词的词嵌入。

但是这种类型的模型定义了输入的线性变换,类似于在多项逻辑回归中发现的变换:

p(y=c|x;θ)=exp(wcx)iNexp(wix)

我知道真正的诀窍在于如何制定损失函数,在skip-gram模型中,不是将每个类(每个单词)的概率乘以单词的子集(上下文)。然而,如果这是一个神经网络模型,转换是线性的而不是非线性的。

我知道你可以在 DNN 中进行一些线性变换(实际上是线性组合到非线性组合到线性......),但我认为使用术语 DNN 和构建视觉表示的主要目的是你有一些非线性如果您仔细选择,可以将转换视为介于 -1,1 或 0,1 之间的函数,并且可以将其视为“激活函数”,然后诱导这种神经网络图形表示事物。

但是,对于 word2vec 和 skipgram 模型,我无法掌握这一点。任何人都可以对此有所了解吗?

1个回答

我想你很困惑 - Word2Vec 被视为“神经”的原因不是因为它的损失函数,而是它使用神经网络来估计词嵌入uv)(见原论文第 2 节)。

例如,我可能会遇到带有损失函数的 ML 问题L最小化(在某些数据上X和目标y)。如果我使用一个简单的线性模型来完成这项工作,它是线性的;或者如果我使用(比如说)CNN,我会称之为“神经模型”。是否损失无所谓L是线性的,否则。