机器算法验证 - Mini-Batch Gradient Descent - 为什么使用替换采样有效？ - 吾爱随笔录

机器算法验证机器学习采样梯度下降

2022-03-20 08:07:21

在对数据进行采样时，无论是一次一个（如在线学习）还是小批量，都存在梯度下降方法，可以进行替换采样和不替换采样。

对于 Mini-Batch Gradient Descent，为什么使用替换采样的方法有效？为什么我们不关心，例如，同一个数据点可以被多次采样，或者训练集中的某些数据点可能永远不会被采样？

1个回答

它有效（而且我们不关心多次采样点），因为它是完整梯度的无偏估计。

梯度分布在求和（和期望）之上。在所有可能的小批量中，小批量梯度的期望值是完整梯度。

更多细节在 Leon Bottou 的论文 Stochastic Gradient Descent Tricks 中。第 2 节将 SGD 作为无偏估计器进行讨论，同样的论点也适用于小批量估计器。

其它你可能感兴趣的问题