在skip-gram模型中,一个词的概率是上下文词集的一部分 在哪里是围绕中心词的上下文窗口,由下式给出:
在哪里是训练集中的单词数,是上下文词的词嵌入,并且是中心词的词嵌入。
但是这种类型的模型定义了输入的线性变换,类似于在多项逻辑回归中发现的变换:
我知道真正的诀窍在于如何制定损失函数,在skip-gram模型中,不是将每个类(每个单词)的概率乘以单词的子集(上下文)。然而,如果这是一个神经网络模型,转换是线性的而不是非线性的。
我知道你可以在 DNN 中进行一些线性变换(实际上是线性组合到非线性组合到线性......),但我认为使用术语 DNN 和构建视觉表示的主要目的是你有一些非线性如果您仔细选择,可以将转换视为介于 -1,1 或 0,1 之间的函数,并且可以将其视为“激活函数”,然后诱导这种神经网络图形表示事物。
但是,对于 word2vec 和 skipgram 模型,我无法掌握这一点。任何人都可以对此有所了解吗?