在 glmer() 中指定模型 - 交互项

机器算法验证 r 回归 物流 lme4-nlme 咕噜咕噜
2022-04-03 21:33:00

我正在使用函数 glmer() 运行家庭逻辑回归的广义混合效应模型。

我正在预测响应的可能性 (0/1),我在最终模型中要探索的固定效应是: 日/夜 (D/N) 男性/女性 (M/F) 自试验开始以来的时间(连续)

我的随机效应是 ID 和位置。

我在制定适合这些的最佳模型时遇到了很多困难,不仅 3 个固定效应的重要性在单独建模或与另一个模型组合时差异很大......而且我正在在线阅读对比信息是否应该使用“*”或“:”来定义交互项?

例如,只看男性/女性和“自审判开始以来的时间”

建模只是男性/女性:

`mod1 <- glmer(RESPONSE ~ Sex  + (1|`ID CODE`) + (1|Location), data = data, family = binomial)

summary(mod2)
`

输出:

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -12.856      1.592  -8.075 6.74e-16 ***
SexF         -12.970      3.375  -3.843 0.000122 ***

试用开始后的运行时间:

mod2 <- glmer(RESPONSE ~ Time  + (1|`ID CODE`) + (1|Location), data = data, family = binomial)

summary(mod2)

输出:

    Fixed effects:
                         Estimate Std. Error z value Pr(>|z|)    
(Intercept)               -1.3185     0.5398  -2.442 0.014592 *  
Time                      -1.3036     0.3542  -3.680 0.000233 ***

当使用“*”作为交互运行时:

mod3 <- glmer(RESPONSE ~ Time*Sex + (1|`ID CODE`) + (1|Location), data = data, family = binomial)

summary(mod3)

输出:

Fixed effects:
                                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)                    -11.483      1.955  -5.873 4.29e-09 *** 
Time                           -1.301      1.677  -0.776   0.4380    
SexF                           -12.488      5.439  -2.296   0.0217 *  
Time:SexF                       0.396      4.827   0.082   0.9346  

当使用 ":" 作为交互运行时:

mod4 <- glmer(RESPONSE ~ Time:Sex + (1|`ID CODE`) + (1|Location), data = data, family = binomial)

summary(mod4)

输出:

Fixed effects:
                                    Estimate Std. Error z value Pr(>|z|)   
(Intercept)                          -1.2957     0.5427  -2.388  0.01695 * 
Time:SexM                            -1.1943     0.3698  -3.229  0.00124 **
Time:SexF                            -1.5406     0.5019  -3.070  0.00214 **
1个回答

首先,请注意,这A*B只是简写,指定一个只有A + B + A:B交互项 的模型是没有意义的,就像在上一个模型中一样。也就是说,在包含交互作用时,作为一般规则,您还需要包括交互作用中涉及的每个变量的主效应。换句话说,如果您不想要交互,则应该适合,或者如果您确实想要包含交互,则应该使用( 或)。A + BA*BA + B + A:B

其次,请注意,在存在交互作用的情况下,主效应的含义会发生变化。在没有交互作用的情况下,每个主效应都被解释为 1 个单位的变化(或在分类变量的情况下与参考水平相比的差异)与结果的关联,而其他协变量保持不变。然而,在存在交互作用的情况下,每个主效应都被解释为 1 个单位的变化(或在分类变量的情况下与参考水平相比的差异)与结果的关联,当另一个变量是参与交互作用为零(或在分类变量的情况下处于其参考水平). 这就是为什么在将它们包含在交互作用中之后,主效应的估计值及其 p 值会有所不同:它们正在测试不同的事物。

从前三个模型的输出中,我们看到mod3交互项不显着。这通常意味着您可以安全地放弃交互。我说“通常”是因为 p 值也与样本量有关,所以如果你有很强的理论理由来包含交互作用,并且你只有一个小样本,那么你应该保留它。在进行实验/研究以确定足够的样本量之前进行功效分析是最好的方法,因此如果您要跟进进一步的研究,那么我强烈建议您这样做。假设统计功效不是问题,那么如上所述,您可以放弃交互并继续使用包含两个主要效应的模型。大概您有充分的理由首先想要将它们包括在内。基于 p 值的模型选择是一个非常可疑的过程,最好利用您对主题的了解来选择最佳模型。因此,很大程度上取决于您的研究问题。例如,如果您主要想了解如何Time与响应的概率相关,那么性别可能是一个混杂因素,因此您肯定希望将其包括在内。

最后,请注意,时间通常与结果具有非线性关联,因此您可能希望为其包含非线性项(例如二次项),或使用样条曲线。您可能还希望允许时间和响应概率之间的关联在 ID 和 Location 中不同,方法是为其包含随机斜率。