广义线性混合模型:模型选择

机器算法验证 混合模式 模型选择 aic 咕噜咕噜 逐步回归
2022-03-24 13:15:34

这个问题/话题是在与一位同事的讨论中提出的,我正在寻找一些关于此的意见:

我正在使用随机效应逻辑回归对一些数据进行建模,更准确地说是随机截距逻辑回归。对于固定效应,我有 9 个变量值得考虑并加以考虑。我想做某种模型选择以找到重要的变量并给出“最佳”模型(仅限主效应)。

我的第一个想法是使用 AIC 来比较不同的模型,但是使用 9 个变量比较 2^9=512 个不同的模型(关键词:数据挖掘)并不太令人兴奋。

我与一位同事讨论过这个问题,他告诉我他记得读过关于使用 GLMM 进行逐步(或前向)模型选择的文章。但是,不应使用 p 值(例如,基于 GLMM 的似然比检验),而应使用 AIC 作为进入/退出标准。

我发现这个想法很有趣,但我没有找到任何进一步讨论这个问题的参考资料,而且我的同事也不记得他在哪里读到的。许多书籍建议使用 AIC 来比较模型,但我没有找到任何关于将它与逐步或前向模型选择过程一起使用的讨论。

所以我基本上有两个问题:

  1. 在逐步模型选择过程中使用 AIC 作为进入/退出标准有什么问题吗?如果是,有什么替代方案?

  2. 您是否有一些讨论上述程序的参考资料(也作为最终报告的参考资料?

最好的,

艾米利亚

3个回答

多级模型中的逐步选择是错误的,原因与“常规”回归中的错误相同:p 值太低,标准误差太小,参数估计值偏离 0 等等。最重要的是,它拒绝了你思考的机会。

9个静脉注射不是很多。为什么选择这9个?你肯定是有原因的。

最初要做的一件事是看很多图;哪些精确的数据在一定程度上取决于您的数据是纵向的(在这种情况下,x 轴上的时间图通常很有用)还是集群的。但请务必查看 9 个 IV 与您的 DV 之间的关系(平行箱线图是一种简单的可能性)。

理想的情况是建立一些基于实质性意义的模型,并使用 AIC、BIC 或其他一些度量来比较它们。但是,如果没有特定的模型显然是最好的,请不要感到惊讶。你没有说你在哪个领域工作,但在许多(大多数?)领域,性质是复杂的。几个模型可能非常适合,而不同的模型可能更适合不同的数据集(即使两者都是来自同一群体的随机样本)。

至于参考 - 有很多关于非线性混合模型的好书。哪一个最适合您取决于 a)您在哪个领域 b)数据的性质是什么 c)您使用什么软件。

回复您的评论

  1. 如果所有 9 个变量在科学上都很重要,我至少会考虑将它们都包括在内。如果每个人都认为很重要的变量最终产生了很小的影响,那就很有趣了。

  2. 当然,随着时间的推移以各种方式绘制所有变量。

  3. 对于纵向多级模型的一般问题,我喜欢Hedeker 和 Gibbons对于 SAS 中的非线性纵向模型,我喜欢Molenberghs 和 VerbekeSAS 文档本身(用于PROC GLIMMIX)也提供了指导。

使用 LASSO 等收缩方法可以更好地进行模型选择。逐步方法过于宽松。可以在 Tibshirani 的网页中找到理由。如果您使用的是 R,那么有一个名为的包glmmLasso,它允许使用 LASSO 收缩方法在广义线性混合效应模型中选择模型。

R 中基于 AIC 的混合模型选择(也适用于假人)的一个很好的参考是 Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,