VIF、条件索引和特征值

机器算法验证 多重回归 线性模型 多重共线性 方差膨胀因子
2022-02-09 23:45:26

我目前正在评估我的数据集中的多重共线性。

VIF 和状况指数低于/高于哪些阈值表明存在问题?

VIF: 我听说过 VIF10是个问题。

去掉两个问题变量后,VIF 为3.96对于每个变量。变量是否需要更多处理,还是这个 VIF 看起来不错?

条件指数: 我听说 30 或更高的条件指数 (CI) 是一个问题。我的最高 CI 是 16.66。这是一个问题吗?

其他问题:

  • 还有其他需要考虑的注意事项吗?
  • 还有什么我需要记住的吗?
2个回答

实际上,大多数计量经济学教科书都对多重共线性问题进行了深入研究。此外,维基百科中有一篇很好的文章实际上总结了大多数关键问题。

在实践中,如果多重共线性问题会导致一些参数不稳定的视觉迹象(其中大多数是由XTX矩阵):

  1. 在对较小的数据子样本执行滚动回归或估计时,参数估计值发生较大变化
  2. 参数估计的平均,后者可能会变得微不足道(通过t测试)即使垃圾回归F测试显示结果的高度联合显着性
  3. VIF 统计量(辅助回归的平均值)仅取决于您对容差水平的要求,大多数实际建议将可接受的容差设置为低于 0.2 或 0.1,这意味着辅助回归的相应平均值R2应高于 0.9 或 0.8 以检测问题。因此,VIF 应该大于经验法则的 10 和 5 值。在小样本(少于 50 个点)中,最好选择 5,在较大的样本中,您可以使用更大的值。
  4. 在您的情况下,条件索引是 VIF 的替代方案,VIF 和 CI 都不会显示问题存在,因此您可能对这个结果在统计上感到满意,但是......

理论上可能不是,因为可能会发生(并且通常是这种情况)您需要所有变量都存在于模型中。排除相关变量(遗漏变量问题)无论如何都会产生有偏差和不一致的参数估计。另一方面,您可能仅仅因为您的分析基于它而被迫包含所有焦点变量。在数据挖掘方法中,尽管您在寻找最佳匹配方面更具技术性。

所以请记住替代方案(我会自己使用):

  1. 获得更多数据点(回想一下,对于较大的数据集,VIF 要求较小,如果解释变量变化缓慢,可能会在某些关键时间点或横截面发生变化)
  2. 通过主成分搜索潜在因素(后者是正交组合,因此构造不是多重共线的,更多的是涉及所有解释变量)
  3. 岭回归(它在参数估计中引入了小偏差,但使它们高度稳定)

其他一些技巧在上面提到的 wiki 文章中。

我相信 Belsely 说过 CI 超过 10 表示可能存在中度问题,而超过 30 则更严重。

但是,此外,您应该查看高条件指数中的变量集共享的方差。关于涉及一个变量和截距的共线性是否存在问题,以及将有问题的变量居中是否解决了问题,或者只是将其移至其他地方,存在争议(或者是,我上次阅读这篇文献)。