当向神经网络添加 dropout 时,我们会随机删除一部分连接(为特定的权重更新迭代将这些权重设置为零)。如果辍学概率是,那么我们正在有效地训练一个大小为, 在哪里是神经网络中的单元总数。
使用这个逻辑,我可以做多大的网络没有限制,只要我按比例增加 dropout,我总是可以有效地用相同大小的网络训练,从而增加“独立”模型的数量一起工作,使得更大的集成模型。从而提高模型的泛化能力。
例如,如果一个有 2 个单元的网络已经在训练集中取得了很好的结果(但不是在看不见的数据中——即验证或测试集——),那么一个有 4 个单元 + dropout 0.5(2 个模型的集合)的网络,以及一个有 8 个单元 + dropout 0.75(4 个模型的集合)的网络......还有一个有 1000 个单元的网络,dropout 为 0.998(500 个模型的集合)!
在实践中,建议将 dropout 保持在,这不建议使用上述方法。所以这似乎是有原因的。
是什么反对将模型与调整后的 dropout 参数一起炸毁?