数据挖掘 - 辍学意味着随机下降？ - 吾爱随笔录

这个问题很简单，但我在网上找不到快速确认。这似乎很明显——按照设计，Dropout 总是会导致看起来像随机的梯度下降吗？(新元)

我已经建立了一个系统，它很好地收敛于 0 的动量和 0.01 的学习率，即使堆叠了 100 层。使用 dropout，误差减小，但由于 dropout 敲除某些神经元而上下跳跃？

在带有 dropout 的反向传播期间是否经常看到误差波动，类似于 SGD？

这是否意味着我可以在大批量而不是小批量上进行训练，而不用担心默认情况下过度拟合？例如，使用弹性传播 (rProp) - 在我的测试示例中，LSTM 使用 rProp 仅训练 40 次迭代，而不是使用 SGD 的 1000 次