有人可以给出卷积神经网络中使用的 drop-out 方法背后的直觉吗?
辍学到底在做什么?
有人可以给出卷积神经网络中使用的 drop-out 方法背后的直觉吗?
辍学到底在做什么?
正如介绍它的论文中所述,dropout 是这样进行的:
唯一的区别是,对于 mini-batch 中的每个训练案例,我们通过丢弃单元对细化网络进行采样。该训练案例的前向和反向传播仅在此细化网络上完成。[...] 任何不使用参数的训练案例都会为该参数贡献一个零梯度。
如果一个单位被保留的概率在训练期间,该单元的输出权重乘以在测试时,如图 2 所示。这确保对于任何隐藏单元,预期输出(在用于在训练时丢弃单元的分布下)与测试时的实际输出相同。
直觉是我们希望找到贝叶斯最优分类器,但是对于大型模型这样做是令人望而却步的;根据论文,使用通过 dropout 训练的完整网络是一种简单的近似,在实践中证明是有用的。(有关各种应用程序的结果,请参见论文。一个应用程序包括卷积架构。)
当您发现您的模型过度拟合时,即在训练期间在交叉验证中表现良好但在独立测试集中受到影响,那么您添加 dropout 层以减少对训练集的依赖。
https://www.quora.com/How-does-the-dropout-method-work-in-deep-learning/answer/Arindam-Paul-3