提前停止和辍学是否足以在实践中规范绝大多数深度神经网络?

机器算法验证 神经网络 正则化 辍学
2022-03-15 00:39:49

正则化技术有这么多,尝试所有组合是不切实际的:

  • l1/l2
  • 最大范数
  • 辍学
  • 早停
  • ...

似乎大多数人都对 dropout + early stopping 的组合感到满意:是否存在使用其他技术有意义的情况?

例如,如果您想要一个稀疏模型,您可以添加一些 l1 正则化。除此之外,是否有强烈的论据支持使用其他正则化技术?

我知道没有免费午餐定理,理论上我必须尝试所有正则化技术的组合,但如果它几乎不会产生显着的性能提升,那就不值得尝试了。

1个回答

让我们回顾一下正则化的主要目的是减少过拟合。

目前正在使用哪些其他技术来减少过度拟合:

1) 权重共享——就像在 CNN 中所做的那样,在图像上应用相同的过滤器。

2)数据增强——增强现有数据并使用生成模型生成合成数据

3) 大量的训练数据——感谢 ImageNet 等。

4) 预训练——例如说在加州理工学院数据集上训练分类器之前使用 ImageNet 学习的权重。

5)在神经网络中使用 RelU 本身会鼓励稀疏性,因为它们允许零激活。事实上,对于特征空间中更复杂的区域,使用更多的 RelU,对简单区域停用它们。所以基本上根据问题复杂度来改变模型复杂度。

除了辍学和提前停止之外,使用一堆这样的技术似乎足以解决今天正在解决的问题。然而,对于较少数据的新问题,您可能会发现其他正则化技术很有用。