我正在尝试了解 word2vec ( paper ) 和底层的 Skip-gram 模型。我希望我掌握了基础知识和直觉,但我仍然不确定输入和/或隐藏层中是否使用了偏置单元。
输入只是一个单热编码向量,通常说它只是作为与相应单词关联的权重的选择器(没有激活函数)。我想说,输入层没有添加偏置单元。现在至于隐藏层,因为输出神经元给出以下信息:
其中 v' 和 v 是“w 的输入和输出表示”我认为也没有偏差单元。
如果我是对的,为什么在这种类型的神经网络中不需要偏置单元?如果我错了,谁能解释它们如何适合模型的描述?
