数据挖掘 - 我应该每次都使用正则化吗？ - 吾爱随笔录

我应该每次都使用正则化吗？

数据挖掘机器学习逻辑回归线性回归正则化

2021-09-16 09:14:48

我已经学习了线性和逻辑回归的正则化，但是当我对我的代码实施该算法时，我的估计通常不会改变。我的意思是，它看起来无效。我知道，这是为了过度拟合。所以如果我每次都在我的代码中使用它，会不会是个问题？还是这是一件好事？

4个回答

通常你使用正则化。例外情况是，如果您知道数据生成过程并且可以对其进行精确建模。然后您只需估计模型参数。通常，您不会知道该过程，因此您必须使用足够灵活的模型进行近似。如果模型不够灵活，您将不需要正则化，但无论如何您都不会很好地近似。如果你使用更灵活的模型，你会平均接近（低偏差），但你会有更多的方差，因此需要增加正则化。换句话说，您需要的正则化量取决于模型。这与偏差-方差权衡有关。

欢迎来到 DataScience.SE。

在前两个响应中添加更多细节，它们都包含有用的洞察力和观点：

Regularization用于控制过拟合（更正式的high variance）场景。您应该将任何模型视为和的仔细bias平衡variance。因此，一个对正则化没有反应的模型可能一开始就不太适合。在没有看到交叉验证结果的情况下很难猜测发生了什么。

您是否交叉验证了您的模型？您是否使用良好的指标来评估您的模型？当您调整正则化时，训练指标与测试指标相比如何？

理想模型稍微过拟合，然后应用正则化来平衡偏差和方差。可以进行bias-variance分解，但如果有更多经验，您可以只比较训练和测试集的单个指标，并测试增加和减少正则化的效果。

希望这可以帮助！

正则化对于防止过度训练很有用，但是，如果您的正则化参数过于激进，那么它将主导学习功能，并且不允许您正确调整变量。尝试减少正则化参数。

使用正则化的主要原因是为了克服过度拟合的问题。当您的模型很好地拟合数据（即也捕获所有噪声）时，正则化会惩罚权重。您可以阅读更多内容并通过参考中的实现细节获得数学直觉

其它你可能感兴趣的问题

上一篇什么是表征学习？下一篇机器学习中的集成与聚类