word2vec 神经网络 - 偏置单元

机器算法验证 word2vec
2022-03-30 04:36:44

我正在尝试了解 word2vec ( paper ) 和底层的 Skip-gram 模型。我希望我掌握了基础知识和直觉,但我仍然不确定输入和/或隐藏层中是否使用了偏置单元

输入只是一个单热编码向量,通常说它只是作为与相应单词关联的权重的选择器(没有激活函数)。我想说,输入层没有添加偏置单元。现在至于隐藏层,因为输出神经元给出以下信息:

softmax 激活

其中 v' 和 v 是“w 的输入和输出表示”我认为也没有偏差单元。

如果我是对的,为什么在这种类型的神经网络中不需要偏置单元?如果我错了,谁能解释它们如何适合模型的描述?

2个回答

似乎每一层都没有偏置单元。Mikolov 在他关于基于神经网络的语言模型的论文中指出:

[...] 神经网络中没有使用偏差,因为没有观察到性能的显着改善 - 遵循奥卡姆剃刀法则,解决方案尽可能简单。

(Mikolov, T.:基于神经网络的统计语言模型,第 29 页)

虽然这是一个关于循环神经网络的引用,但我假设这对于 Skip-gram 模型也是有效的。

偏差隐藏在平均向量中(取所有向量的平均值;给定向量在该平均值上的投影有效地带有偏差)。