数据挖掘 - 为什么小批量损失的预期梯度等于整个集合的梯度是个好消息？ - 吾爱随笔录

为什么小批量损失的预期梯度等于整个集合的梯度是个好消息？

数据挖掘机器学习梯度下降模型选择

2022-02-16 16:28:17

我最近证明了

$\mathbb{E}_I[\nabla L_I(x,y,w)] = \nabla(L_I(x,y,w))$

在哪里 $I$ 代表一个随机批次的大小 $m$ .

但是，我无法真正理解为什么这是个好消息。我知道梯度对于优化模型很重要，尤其是梯度下降。我也明白，在小批量算法中，我们对整个批次进行平均，而不是对所有数据进行平均，从而节省大量计算并减少方差。

1个回答

当你用来优化某事物的近似函数与被近似的事物相比是无偏的时，这通常是个好消息。这意味着您的总体操作将朝着相同的优化点前进。

如果梯度长期存在偏差，那么（取决于偏差的性质）优化例程将通过在梯度下降中跟随它们而错误地收敛，并给出错误优化的答案。

如果一个值最初是有偏差的，有时是可以的，但随着时间的推移，偏差会减少到零。不是这里的情况，但你会在一些机器学习算法中看到。例如，在使用动量的神经网络中，通常初始动量值是有偏差的，但偏差呈指数衰减（实际上可以进行无偏动量估计，但大多数使用动量或 Nesterov 动量的 SGD 实现都不会这样做 - Adam 实现通常会这样做）。

其它你可能感兴趣的问题