我最近证明了
在哪里代表一个随机批次的大小.
但是,我无法真正理解为什么这是个好消息。我知道梯度对于优化模型很重要,尤其是梯度下降。我也明白,在小批量算法中,我们对整个批次进行平均,而不是对所有数据进行平均,从而节省大量计算并减少方差。
我最近证明了
在哪里代表一个随机批次的大小.
但是,我无法真正理解为什么这是个好消息。我知道梯度对于优化模型很重要,尤其是梯度下降。我也明白,在小批量算法中,我们对整个批次进行平均,而不是对所有数据进行平均,从而节省大量计算并减少方差。
当你用来优化某事物的近似函数与被近似的事物相比是无偏的时,这通常是个好消息。这意味着您的总体操作将朝着相同的优化点前进。
如果梯度长期存在偏差,那么(取决于偏差的性质)优化例程将通过在梯度下降中跟随它们而错误地收敛,并给出错误优化的答案。
如果一个值最初是有偏差的,有时是可以的,但随着时间的推移,偏差会减少到零。不是这里的情况,但你会在一些机器学习算法中看到。例如,在使用动量的神经网络中,通常初始动量值是有偏差的,但偏差呈指数衰减(实际上可以进行无偏动量估计,但大多数使用动量或 Nesterov 动量的 SGD 实现都不会这样做 - Adam 实现通常会这样做)。