在 Word2Vec 可训练模型中,有两个不同的权重矩阵。矩阵从输入到隐藏层和矩阵从隐藏层到输出层。
参考这篇文章,我明白我们有矩阵的原因基本上是为了弥补输出层激活函数的不足。由于运行时不需要激活函数,因此输出层没有激活函数。但是我们需要更新输入到隐藏层的权重矩阵通过反向传播最终达到最适合我们用例的词嵌入。所以有这个权重矩阵在输出层。
但我的问题是为什么在运行时不需要激活功能?谁能解释一下?
在 Word2Vec 可训练模型中,有两个不同的权重矩阵。矩阵从输入到隐藏层和矩阵从隐藏层到输出层。
参考这篇文章,我明白我们有矩阵的原因基本上是为了弥补输出层激活函数的不足。由于运行时不需要激活函数,因此输出层没有激活函数。但是我们需要更新输入到隐藏层的权重矩阵通过反向传播最终达到最适合我们用例的词嵌入。所以有这个权重矩阵在输出层。
但我的问题是为什么在运行时不需要激活功能?谁能解释一下?
虽然没有明确制定激活,但我们可以将其视为线性分类函数。看来 word2vec 模型试图建模的依赖关系可以通过输入单词之间的线性关系来实现。
添加非线性激活函数允许神经网络映射更复杂的函数,这反过来可能导致将输入拟合到不保留 word2vec 所寻求的依赖关系的更复杂的东西上。
我认为 word2vec 模型应该是一个线性分类器。我们想要一个可以表示欧几里得、人类可交互空间中单词的相对含义的模型。通过这种方式,我们可以计算出我们人类可以理解且易于解释的词向量之间的距离。