我正在实现 Tom Mitchell 的机器学习书中的反向传播的随机梯度下降版本,其中包含每个训练实例的步骤:
- 输入实例并计算每个单元的输出。
- 对于每个输出单元,计算误差
- 对于每个隐藏单元,计算误差
- 更新每个权重
我想在输入层和隐藏层都有偏差单元。偏置单元是否像任何其他单元一样被处理,特别是偏置单元是否具有与之相关的如果我在 Matlab 中使用矩阵实现,我会简单地将偏置连接到和隐藏层的输出向量吗?
我正在实现 Tom Mitchell 的机器学习书中的反向传播的随机梯度下降版本,其中包含每个训练实例的步骤:
我想在输入层和隐藏层都有偏差单元。偏置单元是否像任何其他单元一样被处理,特别是偏置单元是否具有与之相关的如果我在 Matlab 中使用矩阵实现,我会简单地将偏置连接到和隐藏层的输出向量吗?
偏置单元没有传入权重,因此您不需要计算每个偏置单元的梯度(您可以计算它,但它不会用于任何后续计算)。只需要输出偏差权重的梯度。对于任何训练算法都是如此,而不仅仅是 SGD。