我想检测共线性是否是我的 OLS 回归中的问题。我知道方差膨胀因子和条件指数是两种常用的衡量标准,但我发现很难找到任何关于每种方法的优点或分数应该是什么的明确信息。
一个突出的来源表明要做什么,和/或什么分数是合适的,这将非常有用。
在“是否有理由更喜欢特定的多重共线性度量?”中提出了类似的问题。但我理想情况下是在我可以引用的参考资料之后。
我想检测共线性是否是我的 OLS 回归中的问题。我知道方差膨胀因子和条件指数是两种常用的衡量标准,但我发现很难找到任何关于每种方法的优点或分数应该是什么的明确信息。
一个突出的来源表明要做什么,和/或什么分数是合适的,这将非常有用。
在“是否有理由更喜欢特定的多重共线性度量?”中提出了类似的问题。但我理想情况下是在我可以引用的参考资料之后。
Belsley、Kuh 和 Welsch 是这类问题的参考资料。它们包括在题为“历史观点”的部分中对旧诊断的广泛讨论。关于他们写的VIF
...如果我们假设数据已居中并缩放为具有单位长度,则相关矩阵就是。...
我们正在考虑。的对角元素通常被称为方差膨胀因子,它们的诊断值来自关系其中是在剩余解释变量上回归的多重相关系数。显然,高 VIF 表示接近于一,因此指向共线性。因此,该度量在一定程度上可用作共线性的总体指示。它的弱点,就像
,在于它无法区分几个共存的近依赖关系,并且缺乏有意义的边界来区分可以被认为是高的 VIF 值和可以被认为是低的 VIF 值。
代替分析(或的奇异值分解进行仔细、受控的检查。他们通过证明最大奇异值与最小奇异值的比率是X条件数来激发它,并展示了条件数如何(有时很紧)在回归估计的计算中为计算误差的传播提供了界限。他们继续尝试将参数估计的方差近似分解为与奇异值相关的分量。这种分解的力量在于它(在许多情况下)揭示本质的能力的共线性,而不仅仅是表明它的存在。
任何使用数百个变量建立回归模型的人都会喜欢这个功能!软件说“你的数据是共线的,我不能继续”甚至说“你的数据是共线的,我要丢弃以下变量”是一回事。能够说“变量组导致计算不稳定:看看哪些变量可以不使用或考虑执行主成分分析以减少它们的数量。”
最终,BKW 建议通过以下方式诊断共线性
...以下双重条件:
- 判断为具有高条件指数的奇异值,并且与
- 两个或多个估计回归系数方差的高方差分解比例。
(1) 中被认为大的条件索引的数量(例如,大于)标识了数据矩阵的列之间的近依赖关系的数量,并且这些高条件索引的大小提供了它们相对“紧密度”的度量。 " 此外,在(2)中确定与每个高条件指数相关的大方差分解比例(例如,大于条件指数提供了相应回归估计因共线性的存在而退化的程度的度量。
方差膨胀因子 (VIF) 很容易理解。对所有其他设计矩阵列进行回归,注意,计算,然后就可以了。VIF 为 10 意味着您可以使用所有其他回归量来解释一个预测变量 90% 的方差。这通常用作共线性的经验阈值。
但是,通常实现的 VIF 无法告诉您与截距的共线性,因为截距通常默默地包含在这些“辅助”回归中。此外,如果一个回归变量的 VIF 较高,您不会立即知道哪些其他回归变量对共线性负责。您需要查看辅助回归中的标准化系数。
Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics: Identification Influenceing Data and Sources of Colinearity. John Wiley & Sons, 1980)的条件指数和共线性分解比例更难理解。几年前我曾经使用过这些,但我不会在不复习的情况下尝试在这里解释它们;-)
这些诊断确实允许检测与截距的共线性。您可以研究共线性分解比例,以推断哪些其他回归变量对一个给定回归变量的共线性负责。
对于广泛可用的引用,117 页的Faraway 书提供了 30 以上的经验法则,用于根据条件数检测问题,而An Introduction to Statistical Learning,第 101 页表示 VIF 值高于 5 或 10 表示存在问题.
可能比您使用哪种方法识别多重共线性更重要的是您如何处理它。