机器算法验证 - 如何处理多元回归中预测变量之间的高相关性？ - 吾爱随笔录

我在一篇文章中找到了一个参考，类似于：

根据 Tabachnick & Fidell (1996)，二元相关性大于 0.70 的自变量不应包含在多元回归分析中。

问题：我在多元回归设计中使用了 3 个相关变量 >.80，VIF 约为 0.2 - .3，公差 ~ 4-5。我不能排除其中任何一个（重要的预测变量和结果）。当我对相关性为 0.80 的 2 个预测变量的结果进行回归时，它们都保持显着性，每个都预测了重要的方差，并且这两个变量在包括的所有 10 个变量（5 个控件）中具有最大的部分和半部分相关系数。

问题：尽管相关性很高，但我的模型是否有效？非常欢迎任何参考！

谢谢你的回答！

我没有使用 Tabachnick 和 Fidell 作为指导方针，我在一篇处理预测变量之间的高共线性的文章中找到了这个参考。

因此，基本上，对于模型中的预测变量数量（许多分类、虚拟编码控制变量——年龄、任期、性别等），我的案例太少了——72 个案例中有 13 个变量。条件指数约为 29，所有控件都在其中，而没有它们则为 23（5 个变量）。

我不能删除任何变量或使用因子分析来组合它们，因为理论上它们本身就有意义。获取更多数据为时已晚。由于我在 SPSS 中进行分析，也许最好找到岭回归的语法（尽管我以前没有这样做过，解释结果对我来说是新的）。

如果重要的话，当我进行逐步回归时，相同的 2 个高度相关的变量仍然是结果的单一显着预测因子。

而且我仍然不明白这些变量中的每一个的高偏相关是否可以解释为什么我将它们保留在模型中（以防岭回归无法执行）。

您是否会说“回归诊断：识别有影响的数据和共线性来源/David A. Belsley、Edwin Kuh 和 Roy E. Welsch，1980”有助于理解多重共线性？或者其他参考资料可能有用吗？