如果我已经使用了提前停止,是否需要进行正则化?

机器算法验证 机器学习 过拟合
2022-04-03 12:19:50

我知道提前停止是一种正则化的方式。我现在正在使用基于验证的提前停止。我相信提前停止可以在模型过度拟合之前保存模型。在这种情况下,我是否还需要使用其他正则化(例如 L1/L2)来提高性能?

2个回答

逻辑上答案是否定的:由于提前停止是 L2 正则化的替代方案,并且主要用于比正则化更快,因此它并不意味着与正则化成本函数一起使用。

L1 正则化用于不同的目的,我认为提前停止并不等同于 L1 正则化。

提前停止可能不如 L2 正则化那么精确。目前,很难看清楚,但我还没有读到提前停止在精度方面优于 L2 正则化的案例。我将其理解为一种较低质量的 L2 正则化,即使在大数据集上差异可能非常小。

假设您使用(适当的)L2 正则化,那么提前停止不会提供更好的准确性。

您没有具体说明您正在考虑的早期停止与正则化,但是,总的来说,我认为早期停止不一定是 l1 正则化的替代品。

考虑偏最小二乘法,例如,提前停止。PLS 可以被视为从有限的梯度集(每个变量一个)中优化梯度。如果您查看Elements Of Statistical Learning 3.8,早期停止对 PLS 的影响类似于 Ridge (l2) 正则化。

l1 正则化可以导致稀疏模型l2 正则化本身不能。如果真实模型是稀疏的,则添加 l1 正则化(例如,使用Elastic Net)可以提高预测性能。

对于更复杂的回归器(例如,神经网络),更难以描述提前停止的影响(请参阅Rgularization 与提前停止:一个真实系统的案例研究)。

就个人而言,我会接受 GeoMatt22 的建议。您有(至少)三个选项:1. 提前停止,2. l1 正则化和 3. l2 正则化(当然还有组合)。交叉验证可用于查看最适合您的特定问题的方法。