数据挖掘 - 为什么在 Word2Vec 模型运行期间不需要激活函数 - 吾爱随笔录

数据挖掘 word2vec 激活函数

2022-03-06 02:27:48

在 Word2Vec 可训练模型中，有两个不同的权重矩阵。矩阵 $W$ 从输入到隐藏层和矩阵 $W'$ 从隐藏层到输出层。

参考这篇文章，我明白我们有矩阵的原因 $W'$ 基本上是为了弥补输出层激活函数的不足。由于运行时不需要激活函数，因此输出层没有激活函数。但是我们需要更新输入到隐藏层的权重矩阵 $W$ 通过反向传播最终达到最适合我们用例的词嵌入。所以有这个权重矩阵 $W'$ 在输出层。

但我的问题是为什么在运行时不需要激活功能？谁能解释一下？

2个回答

虽然没有明确制定激活，但我们可以将其视为线性分类函数。看来 word2vec 模型试图建模的依赖关系可以通过输入单词之间的线性关系来实现。

添加非线性激活函数允许神经网络映射更复杂的函数，这反过来可能导致将输入拟合到不保留 word2vec 所寻求的依赖关系的更复杂的东西上。

我认为 word2vec 模型应该是一个线性分类器。我们想要一个可以表示欧几里得、人类可交互空间中单词的相对含义的模型。通过这种方式，我们可以计算出我们人类可以理解且易于解释的词向量之间的距离。

其它你可能感兴趣的问题