请求:确认我对过度拟合和正则化概念的理解

数据挖掘 机器学习 过拟合 正则化
2022-03-04 20:31:36

对于不同的特征值,过度拟合的模型往往具有很大不同(一些非常高,一些相对较低)的系数/权重。因此,这意味着模型(当绘制为图形时)的斜率变化很大,即使训练数据值(特征值)的微小变化也会导致输出的巨大变化。为了平滑具有高斜率变化的过度拟合模型/曲线,我们使用正则化(例如:L1/L2)。

L1 正则化从模型中删除了不必要的/影响较小的特征,从而使模型变得不那么复杂。它通过将这些特征的权重/系数更改为 0 来实现。因此,当我们有许多不必要的特征时,这种正则化很有用,并且也被认为对特征选择很有用。

L2 正则化缩小/调整极端权重,并产生一组分布更均匀的权重。与 L1 正则化不同,它不会导致特征的权重为 0。因此,当我们知道所有/大部分特征对模型有用时,这种正则化会更好一些。

1个回答

总的来说,您的理解是正确的。

过度拟合的模型参数还意味着您已经专门捕获了训练集的分布,并且模型没有推广到变量的真实分布。

您对两种形式的正则化的一般解释是正确的。但是,您还需要考虑解决正则化问题的成本。在线性回归中,L2 正则化有一个封闭形式的解决方案,但 L1 没有,这意味着您需要使用优化算法来找到一个代价高昂的最优值。

关于正则化的其他一些细节,我在这里回答了一个类似的问题: 简单数学中的正则化解释