辍学意味着随机下降?

数据挖掘 辍学
2022-02-22 15:13:28

这个问题很简单,但我在网上找不到快速确认。这似乎很明显——按照设计,Dropout 总是会导致看起来像随机的梯度下降吗?(新元)

我已经建立了一个系统,它很好地收敛于 0 的动量和 0.01 的学习率,即使堆叠了 100 层。使用 dropout,误差减小,但由于 dropout 敲除某些神经元而上下跳跃?

在带有 dropout 的反向传播期间是否经常看到误差波动,类似于 SGD?

这是否意味着我可以在大批量而不是小批量上进行训练,而不用担心默认情况下过度拟合?例如,使用弹性传播 (rProp) - 在我的测试示例中,LSTM 使用 rProp 仅训练 40 次迭代,而不是使用 SGD 的 1000 次

1个回答

这有点取决于您的定义,通常随机梯度下降的随机部分是指您对小批量进行采样并使用该样本估计真实梯度的事实。Dropout 通过对每次采样新网络架构的采样掩码添加随机行为。您当然可以将其视为随机梯度下降的一种形式,但是否是这种情况仅取决于定义。