如何处理多元回归中预测变量之间的高相关性?

机器算法验证 相关性 多重回归 多重共线性 偏相关
2022-01-22 17:13:13

我在一篇文章中找到了一个参考,类似于:

根据 Tabachnick & Fidell (1996),二元相关性大于 0.70 的自变量不应包含在多元回归分析中。

问题:我在多元回归设计中使用了 3 个相关变量 >.80,VIF 约为 0.2 - .3,公差 ~ 4-5。我不能排除其中任何一个(重要的预测变量和结果)。当我对相关性为 0.80 的 2 个预测变量的结果进行回归时,它们都保持显着性,每个都预测了重要的方差,并且这两个变量在包括的所有 10 个变量(5 个控件)中具有最大的部分和半部分相关系数。

问题:尽管相关性很高,但我的模型是否有效?非常欢迎任何参考!


谢谢你的回答!

我没有使用 Tabachnick 和 Fidell 作为指导方针,我在一篇处理预测变量之间的高共线性的文章中找到了这个参考。

因此,基本上,对于模型中的预测变量数量(许多分类、虚拟编码控制变量——年龄、任期、性别等),我的案例太少了——72 个案例中有 13 个变量。条件指数约为 29,所有控件都在其中,而没有它们则为 23(5 个变量)。

我不能删除任何变量或使用因子分析来组合它们,因为理论上它们本身就有意义。获取更多数据为时已晚。由于我在 SPSS 中进行分析,也许最好找到岭回归的语法(尽管我以前没有这样做过,解释结果对我来说是新的)。

如果重要的话,当我进行逐步回归时,相同的 2 个高度相关的变量仍然是结果的单一显着预测因子。

而且我仍然不明白这些变量中的每一个的高偏相关是否可以解释为什么我将它们保留在模型中(以防岭回归无法执行)。

您是否会说“回归诊断:识别有影响的数据和共线性来源/David A. Belsley、Edwin Kuh 和 Roy E. Welsch,1980”有助于理解多重共线性?或者其他参考资料可能有用吗?

1个回答

关键问题不是相关性而是共线性(例如,参见 Belsley 的作品)。最好使用条件索引(在 中可用RSAS也可能在其他程序中可用。相关性既不是共线性的必要条件也不是充分条件。条件索引超过 10(根据 Belsley)表示中度共线性,超过 30 表示严重共线性,但它也取决于共线性涉及哪些变量。

如果您确实发现高共线性,则意味着您的参数估计值不稳定。也就是说,数据中的微小变化(有时在第 4 位有效数字中)可能会导致参数估计值发生巨大变化(有时甚至会反转它们的符号)。这是一件坏事。

补救措施是

  1. 获取更多数据
  2. 删除一个变量
  3. 组合变量(例如,使用偏最小二乘法)和
  4. 执行岭回归,这会产生有偏差的结果,但会减少估计的方差。