试图解决多重共线性不是徒劳的吗?

机器算法验证 造型 模型选择 多重共线性 方差膨胀因子
2022-03-15 13:03:41

大多数关于如何处理多共线性预测变量的建议都告诉您在拟合模型之前消除它们,使用一些标准,如 VIF(方差膨胀因子)。如果我理解正确,这将消除基于它们在变化上的任何微小差异的预测变量。

我不明白的是,当拟合算法选择一个预测变量而不是其他预测变量时,这比拟合算法所做的更好,也是基于它们之间的微小差异。

最后,预测变量对响应的实际影响将仍然无法区分,因为它们的变化太相似而无法分辨,无论您是先验选择还是让算法去做。

为什么不通过 VIF 跳过先验预测变量选择并直接进行模型选择,这将告诉您具有任何一个共线预测变量的模型将具有相似的 AIC?然后,您可以将效果归因于预测变量的共同点,或者简单地说明无法判断是哪一个导致了响应。

2个回答

如果目标是预测,那么您提出的解决方案听起来不错,但推理完全是另一回事。

事实是,理论,例如关于系数的抽样分布,不能在这样的模型选择过程中进行调节。Frank Harrell 在回归建模策略中关于逐步回归的部分对此进行了一些讨论。

统计数据不是算法的真值生成过程。您需要能够说“我认为 X 与结果有关”,以便推断自然统计数据为我们提供的信息。

消除变量只是处理共线性的几种方法之一。其他包括(列表可能并不详尽):

  • 获取更多数据
  • 主成分回归
  • 偏最小二乘回归
  • 岭回归
  • 弹力网

其中哪一个是最好的(或者是否有必要)取决于您的目标和您的特定情况。