带有跳跃的 Regsubsets 失败

机器算法验证 r 回归 多重共线性
2022-04-09 05:20:57

我试图解决regsubsetsR 中的跳跃问题。我的问题特别强烈共线,这就是为什么我首先选择使用它的原因。

变量的数量约为 200,我有大约 200 万个独立观察值。所有变量之间都具有很强的相关结构。

really.big = TRUE在使用, 和nvmax = 5运行regsubsets 时nbest = 1,我得到以下信息:

jumps.setup 中的错误 - 找到 31 个线性依赖项

它崩溃了。我要做的只是一个简单的逐步前进,比如按相关顺序对变量进行排序并运行嵌套回归。

软件处理的太多了吗?从这个意义上说,我认为这个问题已经很好地提出了。

1个回答

您是否指示 regsubsets 进行前向选择?我相信默认值是“详尽的”。

无论如何,共线性仍然会造成麻烦。任何时候 regsubsets 考虑太共线的变量集合(即设计矩阵实际上是奇异的),它都会失败。

“最佳子集”方法在多元回归中可能不稳定,尤其是在有很多变量的情况下。您可能想尝试随机森林方法。