为什么与减少卷积网络隐藏层中的单元数量相比,dropout 更受青睐?
如果大量单位导致过度拟合并丢弃“平均”响应单位,为什么不直接抑制单位呢?
我已经阅读了关于辍学主题的不同问题和答案,包括这些有趣的,什么是“辍学”技术?还有这个我应该删除神经网络的单元还是增加 dropout?,但没有得到我的问题的正确答案。
顺便说一句,Nitish Srivastava 等人的《防止神经网络过度拟合的简单方法》 (A Simple Way to Prevent Neural Networks from Overfitting)(2014 年)被引用为该主题的第一篇,这很奇怪。我刚刚阅读了 2012 年的一篇文章: 通过防止特征检测器的共同适应来改进神经网络。