我应该每次都使用正则化吗?

数据挖掘 机器学习 逻辑回归 线性回归 正则化
2021-09-16 09:14:48

我已经学习了线性和逻辑回归的正则化,但是当我对我的代码实施该算法时,我的估计通常不会改变。我的意思是,它看起来无效。我知道,这是为了过度拟合。所以如果我每次都在我的代码中使用它,会不会是个问题?还是这是一件好事?

4个回答

通常你使用正则化。例外情况是,如果您知道数据生成过程并且可以对其进行精确建模。然后您只需估计模型参数。通常,您不会知道该过程,因此您必须使用足够灵活的模型进行近似。如果模型不够灵活,您将不需要正则化,但无论如何您都不会很好地近似。如果你使用更灵活的模型,你会平均接近(低偏差),但你会有更多的方差,因此需要增加正则化。换句话说,您需要的正则化量取决于模型。这与偏差-方差权衡有关。

欢迎来到 DataScience.SE。

在前两个响应中添加更多细节,它们都包含有用的洞察力和观点:

Regularization用于控制过拟合(更正式的high variance)场景。您应该将任何模型视为 和 的仔细bias平衡variance因此,一个对正则化没有反应的模型可能一开始就不太适合。在没有看到交叉验证结果的情况下很难猜测发生了什么。

您是否交叉验证了您的模型?您是否使用良好的指标评估您的模型当您调整正则化时,训练指标与测试指标相比如何?

理想模型稍微过拟合,然后应用正则化来平衡偏差和方差。可以进行bias-variance分解,但如果有更多经验,您可以只比较训练和测试集的单个指标,并测试增加和减少正则化的效果。

希望这可以帮助!

正则化对于防止过度训练很有用,但是,如果您的正则化参数过于激进,那么它将主导学习功能,并且不允许您正确调整变量。尝试减少正则化参数。

使用正则化的主要原因是为了克服过度拟合的问题。当您的模型很好地拟合数据(即也捕获所有噪声)时,正则化会惩罚权重。您可以阅读更多内容并通过参考中的实现细节获得数学直觉