机器算法验证 - 为什么高相关系数并不能保证高 VIF？ - 吾爱随笔录

为什么高相关系数并不能保证高 VIF？

机器算法验证相关性方差膨胀因子

2022-03-31 09:20:09

我知道关于这个主题有类似的问题，但我的问题不是我们应该依赖哪个指标，而是为什么它们不等价？

《基础计量经济学》一书中有一句话

高零阶相关性是多重共线性存在的充分但不是必要条件

但是，在我的项目中，我确实发现了高相关系数和低 VIF 的证据。有人可以给我解释一下吗？

谢谢！

1个回答

你认为什么是高相关系数？您认为什么是低 VIF？

VIF 是通过在所有其他预测变量上回归预测变量，然后计算来计算的。大于或等于 0.8 时，您才会获得较高的 VIF 。 $i$ $VIF = \frac{1}{1 - R_i^2}$ $R_i^2$

现在假设您有两个预测变量和的相关系数为 0.8，相当高，但没有其他预测变量与预测变量或相关。然后，当您对所有其他变量将略大于和之间相关系数的平方，即（小于实现 VIF 5 所需的 0.8） . 换句话说，和的 VIF会很小，即使它们之间的相关性很高。 $i$ $j$ $i$ $j$ $i$ $R_i^2$ $i$ $j$ $0.8^2 = 0.64$ $i$ $j$

的 VIF捕获了所有其他预测变量的解释程度。但是要获得一个被认为很高（大于或等于 5）的 VIF，当回归预测变量对其他变量时，必须有一个非常强的拟合。正如所证明的那样，两个变量之间绝对有可能具有“高”相关性，但仍然具有“低”VIF。 $i$ $i$ $i$

就您的报价而言，相反的情况也可能发生。您可能具有较低的成对相关性，但具有较高的 VIF。和所有其他变量之间可能存在很强的关系，即使预测变量与任何其他独立的预测变量之间的相关性不高。 $i$ $i$

其它你可能感兴趣的问题

上一篇使用 SGD 的 ELBO 最大化下一篇使用 cross_val_score 和 GridSearchCV 时如何评估模型是过拟合还是欠拟合？