在对数据进行采样时,无论是一次一个(如在线学习)还是小批量,都存在梯度下降方法,可以进行替换采样和不替换采样。
对于 Mini-Batch Gradient Descent,为什么使用替换采样的方法有效?为什么我们不关心,例如,同一个数据点可以被多次采样,或者训练集中的某些数据点可能永远不会被采样?
在对数据进行采样时,无论是一次一个(如在线学习)还是小批量,都存在梯度下降方法,可以进行替换采样和不替换采样。
对于 Mini-Batch Gradient Descent,为什么使用替换采样的方法有效?为什么我们不关心,例如,同一个数据点可以被多次采样,或者训练集中的某些数据点可能永远不会被采样?
它有效(而且我们不关心多次采样点),因为它是完整梯度的无偏估计。
梯度分布在求和(和期望)之上。在所有可能的小批量中,小批量梯度的期望值是完整梯度。
更多细节在 Leon Bottou 的论文 Stochastic Gradient Descent Tricks 中。第 2 节将 SGD 作为无偏估计器进行讨论,同样的论点也适用于小批量估计器。