我对 dropout 有点困惑——在一个教程中,它被描述为基本上是一种“集成方法”。这意味着您可能需要创建一个网络集合。是这种情况,你需要在最后从合奏中获得共识吗?还是 dropout 在一个单一的网络上运行?
作为一种集成方法,dropout 是否需要多次传递同一数据集?
数据挖掘
神经网络
深度学习
辍学
2022-02-24 13:03:31
1个回答
Dropout 应用于一个网络。有时(比如非 dropout 网络)你会在它收敛之前多次运行你的数据,这个数字在 dropout 的情况下平均会高一些,但它是一个网络。每层你在训练和测试/预测期间都有一个丢失概率,你可以通过将权重乘以 (1-p) 来使用没有丢失的完整网络,其中 p 是丢失概率。这是因为在训练期间(1-p)实际使用了节点。
为什么这与集成有关,因为每个训练实例基本上都是在不同的网络上训练的,通过随机丢弃节点,迫使它使用不同的节点学习特定的东西,因为它不会始终拥有所有可用的节点。它不是一个传统的集成,因为你组合了多个网络,只是在训练期间它的行为有点像它。