这个问题很简单,但我在网上找不到快速确认。这似乎很明显——按照设计,Dropout 总是会导致看起来像随机的梯度下降吗?(新元)
我已经建立了一个系统,它很好地收敛于 0 的动量和 0.01 的学习率,即使堆叠了 100 层。使用 dropout,误差减小,但由于 dropout 敲除某些神经元而上下跳跃?
在带有 dropout 的反向传播期间是否经常看到误差波动,类似于 SGD?
这是否意味着我可以在大批量而不是小批量上进行训练,而不用担心默认情况下过度拟合?例如,使用弹性传播 (rProp) - 在我的测试示例中,LSTM 使用 rProp 仅训练 40 次迭代,而不是使用 SGD 的 1000 次