多重共线性真的是个问题吗?

机器算法验证 回归 预言 多重共线性 岭回归
2022-02-14 19:26:50

这些天我正在做一些预测建模项目:尝试学习一个模型并根据我离线学习的模型进行实时预测。

我最近开始使用岭回归,因为我读到正则化可以帮助减少多重共线性的影响。

然而,我今天读了这篇 博客我现在完全糊涂了。根据这个博客,多重共线性不会对模型的预测能力造成太大影响。

那么,归根结底,多重共线性是一个问题吗?

4个回答

这是因果推理的问题 - 或者更确切地说,它表明因果推理的困难 - 但它不是预测/预测的特殊问题(除非它非常极端以至于它阻止模型收敛或导致奇异矩阵,然后你不会得到无论如何预测)。我认为,这也是那篇博文的意义所在。听起来你可能会坚持一个是或否的答案,而答案取决于它。这就是它所依赖的,以及为什么至少可以说(非完美)多重共线性永远不是从模型中删除变量的理由 - 多重共线性表明的任何问题都不会因为你删除了变量而消失并停止看到共线性。

彼此高度相关的预测变量在改善预测方面的效果不如它们不共线但仍与结果变量单独相关的情况;没有一个比另一个已经做的工作​​多得多,而且无论如何都会自己做。也许它们之间的关系如此密切,因为它们基本上捕获了相同的底层结构,在这种情况下,没有一个是出于充分的理由在另一个之上添加更多内容,并且不可能在本体上将它们分开以进行预测无论如何,通过操纵观察单位使两个预测变量中的每一个具有不同的值,以便它们作为预测变量更好地工作。但这并不意味着将它们都按原样包含在您的模型中是不好的或错误的。

当涉及到因果推理时,这只是一个问题,因为它使我们无法至少自信地判断出共线预测器中的哪个在进行预测,因此无法解释,并且可能是导致的。通过足够的观察,您最终将能够识别高度共线(但绝不是完全共线)变量的单独影响。这就是为什么 Rob Franzese 和 UMich 喜欢将多重共线性称为“微数”。预测变量之间总是存在一些共线性。这就是为什么我们通常只需要大量观察的原因之一。对于我们的因果推理需要,有时是不可能的数量。但问题在于世界的复杂性和不幸的情况,这些情况使我们无法观察更广泛的情况,其中不同因素之间的关系差异更大。多重共线性是缺乏有用数据的症状,而多元回归是(不完美的)治疗方法。然而,很多人似乎认为多重共线性是他们的模型做错了,好像这是一个怀疑他们确实有什么发现的理由。

当您只关心预测而不是其他任何事情时,这对预测建模来说不是问题。

考虑这个简单的模型:

y=β+βxx+βzz+ε
假设z=αx

我们有完全共线的回归量,典型的 OLS 解决方案将不存在,因为(XTX)1有一个奇点。

但是,让我们将一个方程代入另一个方程:

y=β+βxx+βzαx+ε=β+β2x+ε,
在哪里β2βx+βzα

所以,很明显,我们可以估计β^2通过通常的OLS方法,即有一个解决方案。唯一的问题是它不是唯一的!

我们可以选择任何β^z,这会给我们β^x=β2αβ^x: 我们有无数对(β^x,β^z)对应于一个唯一的解决方案β^2. 显然,这些对中的任何一个对于预测y^. 而且,所有这些对都和唯一的一样好β^2用于预测目的的系数

唯一的问题是推理。如果你想知道如何x影响y你的典型分析β^x系数及其方差将毫无意义。

多重共线性通常不是回归分析的最佳方案。如果所有预测变量都是正交的,我们的生活会容易得多。

这是模型解释的问题(试图理解数据):

  • 多重共线性会影响系数估计量的方差,从而影响估计精度。
  • 因此,拒绝零假设会更难(因为标准误更高)。我们有第二类错误问题。
  • 仅添加或删除几个样本观测值就可以显着改变估计的系数
  • 估计系数的符号可能与预期相反。

想象一下,如果您必须向您的老板写一份关于您的数据的报告。你建立了一个近乎完美的多重共线性模型,并告诉你的老板这个模型。你可能会说“我的第一个预测变量与响应呈正相关......我将告诉你更多原因......你的老板很高兴,但要求你在没有几个数据点的情况下再试一次。你的新模型中的系数现在...非常不同,您的第一个预测变量的系数现在是负数!您的老板不会再信任您了!您的模型稳健。

多重共线性仍然是预测能力的问题。您的模型将过度拟合,并且不太可能泛化到样本外数据。幸运的是,您的R2将不受影响,您的系数仍然是无偏的。

我认为,如果一个变量和另一个变量(或变量的线性组合)之间的相关性在样本内和样本外数据之间发生变化,您就会开始看到多重共线性影响样本外的准确性预测。多重共线性只是增加了另一个必须合理满足的假设(一致相关性),您的模型才能保持良好的性能。