我目前正在评估我的数据集中的多重共线性。
VIF 和状况指数低于/高于哪些阈值表明存在问题?
VIF: 我听说过 VIF是个问题。
去掉两个问题变量后,VIF 为对于每个变量。变量是否需要更多处理,还是这个 VIF 看起来不错?
条件指数: 我听说 30 或更高的条件指数 (CI) 是一个问题。我的最高 CI 是 16.66。这是一个问题吗?
其他问题:
- 还有其他需要考虑的注意事项吗?
- 还有什么我需要记住的吗?
我目前正在评估我的数据集中的多重共线性。
VIF 和状况指数低于/高于哪些阈值表明存在问题?
VIF: 我听说过 VIF是个问题。
去掉两个问题变量后,VIF 为对于每个变量。变量是否需要更多处理,还是这个 VIF 看起来不错?
条件指数: 我听说 30 或更高的条件指数 (CI) 是一个问题。我的最高 CI 是 16.66。这是一个问题吗?
其他问题:
实际上,大多数计量经济学教科书都对多重共线性问题进行了深入研究。此外,维基百科中有一篇很好的文章实际上总结了大多数关键问题。
在实践中,如果多重共线性问题会导致一些参数不稳定的视觉迹象(其中大多数是由矩阵):
理论上可能不是,因为可能会发生(并且通常是这种情况)您需要所有变量都存在于模型中。排除相关变量(遗漏变量问题)无论如何都会产生有偏差和不一致的参数估计。另一方面,您可能仅仅因为您的分析基于它而被迫包含所有焦点变量。在数据挖掘方法中,尽管您在寻找最佳匹配方面更具技术性。
所以请记住替代方案(我会自己使用):
其他一些技巧在上面提到的 wiki 文章中。
我相信 Belsely 说过 CI 超过 10 表示可能存在中度问题,而超过 30 则更严重。
但是,此外,您应该查看高条件指数中的变量集共享的方差。关于涉及一个变量和截距的共线性是否存在问题,以及将有问题的变量居中是否解决了问题,或者只是将其移至其他地方,存在争议(或者是,我上次阅读这篇文献)。