两个变量之间的高度相关性,但 VIF 并不表示共线性

机器算法验证 相关性 多重共线性 方差膨胀因子
2022-03-27 02:23:55

在评估共线性 - 相关性或 VIF 时,您会选择什么?

假设您运行 pairplots 并计算解释变量对之间的 Pearson 相关系数。其中两个的相关系数在 0.8 左右,相当高。这表明在同一个回归模型中包含两个变量可能不是一个好主意。但是说你无论如何都要包括它们。然后从包中运行vif命令。car方差膨胀因子 (VIF) 均低于阈值(例如 3)。这表明没有问题的共线性。

你会说:

1) 如果 VIF 较低,无论高相关性如何,两者都可以包含在模型中?

或者

2) 高相关性意味着一个变量应该在开始时立即删除,而不管 VIF 是什么?

(这与任何特定的数据或模型无关,因此没有提供具体的数据示例,但我过去曾经历过。我知道有与这个问题相关的线程,但我没有找到我的具体的实际答案问题。)

1个回答

我会使用条件索引而不是 VIF 或相关性;我写了关于这个的论文,但你也可以看到大卫贝尔斯利的作品,例如这本书但如果我必须在 VIF 和相关性之间做出选择,我会选择 VIF。Belsley 表明,相当高的相关性并不总是有问题的。

如果您使用的是 R,另一种对我来说似乎不错的方法是使用perturb包来查看共线性是否有问题。