我在 R 中实现一个逻辑回归模型,我有 80 个变量可供选择。我需要自动化模型的变量选择过程,所以我使用了 step 函数。
我使用函数或找到模型没有问题,但是当我查看最终模型时,我发现阶跃函数选择的一些变量并不显着(我使用汇总函数查看这个并查看第四个$coef 中的列,这是 Wald 测试)。这是一个问题,因为我需要模型中包含的所有变量都很重要。
是否有任何函数或任何方法可以基于 AIC 或 BIC 方法获得最佳模型,但也考虑到所有系数都必须显着?谢谢
我在 R 中实现一个逻辑回归模型,我有 80 个变量可供选择。我需要自动化模型的变量选择过程,所以我使用了 step 函数。
我使用函数或找到模型没有问题,但是当我查看最终模型时,我发现阶跃函数选择的一些变量并不显着(我使用汇总函数查看这个并查看第四个$coef 中的列,这是 Wald 测试)。这是一个问题,因为我需要模型中包含的所有变量都很重要。
是否有任何函数或任何方法可以基于 AIC 或 BIC 方法获得最佳模型,但也考虑到所有系数都必须显着?谢谢
使用逐步选择来查找模型是一件非常糟糕的事情。您的假设检验将无效,并且由于过度拟合,您的样本外预测准确性将非常差。为了更全面地理解这些要点,它可能会帮助您在这里阅读我的答案:自动模型选择算法。
该stepAIC功能是根据 AIC 选择模型,而不是像 SPSS 那样选择单个系数是否高于或低于某个阈值。但是,AIC 可以理解为使用特定的 alpha,而不是 0.05。相反,它大约是 0.157。有关更多信息,请参阅@Glen_b 的答案:R 中的逐步回归 – 临界 p 值。