为什么使用正则化而不是减少模型

数据挖掘 机器学习 神经网络 正则化
2021-10-14 18:58:33

正则化用于降低机器学习模型的容量以避免过度拟合。我们为什么不直接使用容量较小的模型(例如减少层数)。这也将有利于计算时间和内存。

我的猜测是不同的正则化方法对数据集做出不同的假设。如果是这样,对常见的正则化(L1,L2,dropout,任何其他)做了什么假设

提前致谢!

2个回答

正则化在某种意义上确实会降低模型的容量,但正如您已经猜到的那样,不同的容量降低会导致模型质量不同且不可互换。

L1 可以解释为假设不同因素(由神经元表示)对彼此的影响在没有数据的显着支持的情况下不应该被假设(即更大影响所获得的收益必须超过与绝对值增加相关的 L1 损失) “连接”它们的参数的值)。

L2 也是如此,但这取决于连接强度,即非常轻的连接基本上不需要支持(因此不会进一步驱动到精确的零),非常大的连接几乎是不可能的。

Dropout 可以解释为训练大量较小的网络并使用近似平均网络进行推理:“因此,训练具有 dropout 的神经网络可以看作是训练具有广泛权重共享的 2^n 个细化网络的集合,其中每个细化网络网络很少接受训练,如果有的话。“辍学:防止神经网络过度拟合的简单方法

对于给定的数据集,所有这些方法都使得某些网络参数组合极不可能甚至不可能实现,否则这可能是训练的结果。从这个意义上说,模型的容量减少了。但正如人们可以想象的那样,某些容量减少比其他容量减少更有用。

正则化主要不是用来避免过拟合。正则化缩小了对做​​出良好预测没有“用处”的权重。并且正则化也用于许多其他模型,其中它具有更多特征或模型选择的概念(回归、logit、boosting)。

正则化的好处是,您可以使用具有高容量的模型,但使用正则化您无需过多担心特征(及其在 NN 中的表示)。正则化会自动降低不太重要的权重。因此,它是一个非常有用的工具,例如在您拥有大量信息但您不知道实际需要哪些信息来做出良好预测的情况下。

Dropout 是另一回事,因为它意味着随机丢弃权重。收缩意味着对良好预测贡献不大的权重受到模型较少的关注。L1 可以将权重缩小到零,而 L2 永远不会完全为零。

要了解有关正则化的更多信息,您可以查看 Introduction to Statistical Learning。在书中,有一个关于这个问题的非常有启发性的章节。