正则化技术有这么多,尝试所有组合是不切实际的:
- l1/l2
- 最大范数
- 辍学
- 早停
- ...
似乎大多数人都对 dropout + early stopping 的组合感到满意:是否存在使用其他技术有意义的情况?
例如,如果您想要一个稀疏模型,您可以添加一些 l1 正则化。除此之外,是否有强烈的论据支持使用其他正则化技术?
我知道没有免费午餐定理,理论上我必须尝试所有正则化技术的组合,但如果它几乎不会产生显着的性能提升,那就不值得尝试了。
正则化技术有这么多,尝试所有组合是不切实际的:
似乎大多数人都对 dropout + early stopping 的组合感到满意:是否存在使用其他技术有意义的情况?
例如,如果您想要一个稀疏模型,您可以添加一些 l1 正则化。除此之外,是否有强烈的论据支持使用其他正则化技术?
我知道没有免费午餐定理,理论上我必须尝试所有正则化技术的组合,但如果它几乎不会产生显着的性能提升,那就不值得尝试了。
让我们回顾一下正则化的主要目的是减少过拟合。
目前正在使用哪些其他技术来减少过度拟合:
1) 权重共享——就像在 CNN 中所做的那样,在图像上应用相同的过滤器。
2)数据增强——增强现有数据并使用生成模型生成合成数据
3) 大量的训练数据——感谢 ImageNet 等。
4) 预训练——例如说在加州理工学院数据集上训练分类器之前使用 ImageNet 学习的权重。
5)在神经网络中使用 RelU 本身会鼓励稀疏性,因为它们允许零激活。事实上,对于特征空间中更复杂的区域,使用更多的 RelU,对简单区域停用它们。所以基本上根据问题复杂度来改变模型复杂度。
除了辍学和提前停止之外,使用一堆这样的技术似乎足以解决今天正在解决的问题。然而,对于较少数据的新问题,您可能会发现其他正则化技术很有用。