卷积神经网络中使用的 dropout 的直觉是什么?

机器算法验证 卷积神经网络 辍学
2022-03-20 04:04:06

有人可以给出卷积神经网络中使用的 drop-out 方法背后的直觉吗?

辍学到底在做什么?

2个回答

正如介绍它的论文中所述,dropout 是这样进行的:

  1. 在训练期间,从网络中随机删除单元。像往常一样更新参数,使丢失的单元保持不变。

    唯一的区别是,对于 mini-batch 中的每个训练案例,我们通过丢弃单元对细化网络进行采样。该训练案例的前向和反向传播仅在此细化网络上完成。[...] 任何不使用参数的训练案例都会为该参数贡献一个零梯度。

  2. 在测试时,通过重新调整来解决这个问题:

    如果一个单位被保留的概率p在训练期间,该单元的输出权重乘以p在测试时,如图 2 所示。这确保对于任何隐藏单元,预期输出(在用于在训练时丢弃单元的分布下)与测试时的实际输出相同。

直觉是我们希望找到贝叶斯最优分类器,但是对于大型模型这样做是令人望而却步的;根据论文,使用通过 dropout 训练的完整网络是一种简单的近似,在实践中证明是有用的。(有关各种应用程序的结果,请参见论文。一个应用程序包括卷积架构。)

当您发现您的模型过度拟合时,即在训练期间在交叉验证中表现良好但在独立测试集中受到影响,那么您添加 dropout 层以减少对训练集的依赖。

https://www.quora.com/How-does-the-dropout-method-work-in-deep-learning/answer/Arindam-Paul-3