是否有研究检查辍学与其他正则化?

数据挖掘 神经网络 计算机视觉 卷积网络 正则化 辍学
2021-10-08 07:48:51

有没有发表的论文显示神经网络的正则化方法的差异,最好是在不同的领域(或至少不同的数据集)?

我之所以这么问,是因为我目前感觉大多数人似乎只使用 dropout 来进行计算机视觉的正则化。我想检查是否有理由(不)使用不同的正则化方式。

2个回答

两点:

  1. Dropout 通常也与神经网络集成进行比较。它似乎具有训练和平均多个神经网络的一些性能优势。
  2. Dropout 比正则化更容易校准。只有一个超参数是辍学率,人们在训练时广泛使用 0.5(当然评估时使用 1.0 :)),请参见例如这个TensorFlow 示例

无论如何,我对神经网络的实证研究有点怀疑。有太多的超参数需要微调,从网络拓扑到梯度下降优化过程再到激活函数,以及你正在测试的任何东西,比如正则化。然后,整个事情是随机的,通常性能增益是如此之小,以至于您几乎无法统计测试差异。许多作者甚至懒得做统计检验。他们只是平均交叉验证并宣布任何具有最高小数点增益的模型成为赢家。

您可能会发现一项促进辍学的研究与另一项促进正则化的研究相矛盾。

我认为这一切都归结为审美偏好。恕我直言,辍学听起来比正则化更具生物学合理性。它似乎也更容易校准。所以,我个人在使用 TensorFlow 之类的框架时更喜欢它。如果我们必须使用我们自己的神经网络,我们经常这样做,我们将使用正则化,因为它更容易实现。

确实。来自创造者本人的论文,杰弗里·辛顿。https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf阅读。但我鼓励你通过自己实施它来看到不同之处。