线性回归的多重共线性与完美多重共线性

数据挖掘 线性回归 共线性
2021-10-12 22:41:56

我一直试图了解自变量中的多重共线性如何影响线性回归模型。维基百科页面建议只有当存在“完美”多重共线性时,才必须从训练中删除其中一个自变量。

现在我的问题是,如果相关性等于 +/- 1,我们是否应该只删除其中一列,或者我们是否考虑一个阈值(比如 0.90),之后它应该被认为是完美的多重共线性。

4个回答

这取决于上下文。在计算上,只有 +/- 1 的相关性是有问题的,因为这样就没有 OLS 标准的唯一解。预测变量之间非常强的相关性可能会夸大标准误差。这表明参数估计随着多重共线性变得不那么精确。预测准确性通常不会因此受到太大影响,但如果您想进行推理(例如,显着性检验),它可能会成为更大的问题。如果预测变量的相关性非常强,那么最好只为回归模型选择最好的预测变量,或者先进行某种降维(例如,PCA)。

通常使用方差膨胀因子 (VIF)来确定某些变量是否(太)强相关。VIF = 10 是公认的包含/排除变量的阈值。因此,具有“太高”相关性的变量也应从线性回归(“OLS”)中排除,如此此处所述。

多重共线性不一定是回归的问题,它只是生活中的一个事实。除非您可以使用设计的实验,否则“本质上”的变量通常是相关的,您必须忍受它。当然,如果自然是正交(统计)的生活会更简单......

所有这些都在我们的姊妹网站 Cross Validated 上进行了很多讨论,例如参见多重共线性真的有问题吗?

一个经济学博客取笑不必要地关注共线性是在多重共线性和微数值 14

以下论文很好地解释了删除变量的权衡。

见(2005 年)。多重线性回归中抑制和多重共线性的图形视图。美国统计学家:卷。59,第 2 期,第 127-136 页。

附录:论文研究了共线性效应和模型拟合之间的平衡行为,即回归中的抑制和增强效应是否抵消共线性问题。