在回归中,为什么不默认使用正则化?

机器算法验证 回归 套索 正则化 岭回归 无偏估计器
2022-01-30 19:56:50

我记得在另一篇文章的某处读到过关于统计学和机器学习或神经网络的人们之间的不同观点,其中一位用户提到这个想法是一种不良做法的例子。

即使那样,我也找不到任何人问这个问题,所以我想我显然缺少一些东西。我只能想到两个不推荐正则化的假设场景:

  1. 研究人员对估计的无偏性感兴趣。
  2. 由于大量实时数据,人们希望尽量减少计算时间。

在前一种情况下,我不相信研究人员有任何实际理由寻找较低误差的公正性,特别是考虑一项单一研究。在后者中,我什至不相信计算时间会有所增加。

我错过了什么?

4个回答

简而言之,正则化改变了检验统计量的分布,使假设检验变得毫无意义。在我们想要使用回归来推断干预的情况下,我们想要公正。

并非所有与数据有关的事情都是预测问题。

人们通常认为正则化优于非正则化模型,因为它们减少了多重共线性,减少了模型过拟合并改善了预测。他们也喜欢正则化,因为它明确地避免了与高斯-马尔可夫定理和其他相关的正则回归的基本假设相关的模型测试的整个主体(测试异方差性、自相关性、正态分布和残差的平稳性等)。

实际上,正则化通常无法提供上述任何好处。你可以在 Internet 上搜索 LASSO 和 Ridge 回归的图像,你会很容易看到一堆严重失败的正则化模型。

检查 Y 轴上的均方误差 (MSE) 与 Lambda 惩罚因子(X 轴上)的关系图。而且,您会发现许多正则化模型,其中 MSE 会在惩罚因子大于零的那一刻增加。这意味着这种正则化模型在预测时比非正则化模型更不准确(而且很可能在样本内回测中也是如此)。这也意味着这样的模型并没有减少模型过拟合;相反,它增加了模型欠拟合。

另一个要观察的图表是系数路径图,X 轴上是惩罚因子,Y 轴上是变量回归系数路径。您经常会观察到,最有影响力的变量在开始时会看到它们的系数比影响力小得多的变量(岭回归)收缩得更快,或者在某些情况下,这些有影响力的变量完全从模型中取出的速度比其他变量(LASSO)快得多。

此外,问题在于,随着惩罚因子的增加,变量系数通常会改变符号。换句话说,无论您在模型中嵌入了什么潜在的解释逻辑,正则化过程都已将其完全拆除。如果模型过程改变了模型中一些最具解释性的因果变量的方向符号……那是个大问题。

LASSO 也被推广为一种非常好的变量选择方法(因为它不仅缩小系数,而且将它们归零)。通常,LASSO 会做出非常错误的变量选择。一种简单的检查方法是在运行 LASSO 后,仅使用 LASSO 选择的变量重新运行模型。而且,您可能会发现许多变量在统计上不显着,或者可能有错误的符号,或者在模型中选择的变量太少或太多,而不是其他更稳健的变量选择方法。

为什么正则化会遇到这么多问题(模型拟合不足、预测不佳、模型的底层逻辑分解、变量选择不佳)?这可能是由于正则化模型的底层算法。该算法有两个组成部分。第一个是错误减少机制,例如 MIN(SSE) 以找到最佳拟合(就像非正则化回归一样),第二个是惩罚更高回归系数的惩罚因子。这两个算法组件朝相反的方向推进。而且,正则化模型无法区分一个非常弱、非因果且系数非常低的变量与另一个非常有影响力或因果性且系数非常高的变量。正则化的工作方式,与更有影响力/因果变量相比,它可能更喜欢弱的非因果变量。这是一个真正的问题。

我的评论是,一切都归结为假设。虽然我们希望对所有事情都有一个硬性规定,但世界至少比这复杂一点。盲目地应用任何一个都必然会误导我们的解释。虽然我们无法测试数据是否适合所有可能的模型或假设,我们也不应该,但如果我们只测试一个模型或方法,我们可能会陷入盲点。

另一个问题是回归通常用于控制其他变量的影响。假设我想知道 A 是否与控制 B 的 Y 相关,A 和 B 是强相关的,我的答案是否定的,但是如果我正则化 A 和 B 系数,那么我的答案是肯定的,这是错误的。