“逐步回归”如何工作?

机器算法验证 r 概率 逐步回归
2022-03-23 03:01:16

我使用以下 R 代码来拟合概率模型:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

我想知道究竟做什么stepwisebackward/forward做什么以及如何选择变量?

2个回答

逐步选择原则

  1. 你用你想要的所有变量拟合一个模型。这是您目前最好的模型。
  2. 根据BIC(或任何其他标准,例如AIC)。您将获得另一个“当前最佳模型”。

你重复 2. 直到 BIC 没有减少。您只有 BIC 的局部最小值,这意味着您可能无法在所有可能的变量子集选择中获得最佳模型。但是不管怎样,通常它们太多了,所以这是一种优化一点的方法,不需要太多的工作。

另请参阅Wikipedia 上的逐步回归模型选择

逐步回归基本上通过基于指定标准一次添加/删除协变量来拟合回归模型(在您上面的示例中,标准将基于 BIC)。

通过指定 forward,您是在告诉R您希望从最简单的模型(即一个协变量)开始,然后一次添加一个协变量,只保留那些导致模型 BIC 改进的协变量。

通过向后指定,您是在告诉R您要从完整模型(即具有所有协变量的模型)开始,然后一次性删除协变量,这会导致 BIC 的改进。

逐步回归可能是一个非常危险的统计过程,因为它不是最佳模型选择过程。该方法可能导致模型选择非常差,因为它不能保护您免受多重比较等问题的影响。