多重回归 - 多重共线性测试

机器算法验证 r 回归
2022-03-25 00:30:37

假设我有一个如下所示的回归模型。目标是在给定多个自变量的情况下预测信用卡余额。

在此处输入图像描述

这只是模型的第一次通过,尚未尝试对其进行优化。我很好奇什么时候做多重共线性检验是最好的。现在是在我们更进一步之前,还是应该在我们缩小到我们认为最终的自变量之后发生?

3个回答

我不认为这很重要。稍后检查它将为您节省不必要的工作和不必要的转换,如果变量不在最终模型中,这些转换可能证明毫无意义。话虽如此,检查vif(model)并不费时,您总是可以等到稍后再将解决方案应用于潜在的多重共线性。

多重共线性的问题是它可以扭曲受影响的系数,改变它们的符号和它们的重要性。关于多重共线性的“好”事情(应该说方便)是它影响共线变量 - 但不影响其余变量。这意味着如果共线仅存在于控制变量上,通常可以忽略它。

你可以检查一下,看看它是否在控件上。如果是,优化并离开它。如果在主要解释变量上,请在优化之前立即处理(一种常见的方法是居中 - 可以使用scale(var_to_scale, scale = FALSE)

编辑:@user3640761 的回答提出了一个有效的建议,即在执行其他任何操作之前检查数据中的高相关性。它简单、快速,并且可以给出很好的指示。

我可能是最后一个回答这个问题的人,但是在回归之前运行相关分析只是为了深入了解数据然后思考多重共线性是否会影响模型预测会有什么缺点?

问题是关于多重共线性的“测试”。我认为这是不可能的,因为多重共线性是样本而不是总体的特征。

参考:http ://davegiles.blogspot.com.au/2013/06/can-you-actually-test-for.html

@Yuval 和 @user3640761 给出的答案提供了有用的诊断,但它们不是统计测试。

这就是我的答案:您可以使用 VIF 或成对相关(例如散点图矩阵)来检查多重共线性,但您无法对其进行测试。