如果我选择小批量(即,对训练集的一个子集进行采样),梯度下降如何训练神经网络?我想到了三种不同的可能性:
纪元开始。我们只对一个小批量进行采样和前馈,得到错误并对其进行反向传播,即更新权重。时代结束。
纪元开始。我们对一个小批量进行采样和前馈,得到错误并对其进行反向传播,即更新权重。我们重复此操作,直到我们对完整的数据集进行了采样。时代结束。
纪元开始。我们采样并前馈一个小批量,得到错误并存储它。我们重复此操作,直到我们对完整的数据集进行了采样。我们以某种方式平均误差并通过更新权重来支持它们。时代结束。