控制线性混合效应模型 (lmer) 中的混杂变量

机器算法验证 r 混合模式 lme4-nlme 随机效应模型 因果关系
2022-04-10 09:39:26

我正在使用 lmer 来测试多个变量(在这种情况下是治疗物种性别)如何影响鸟类的行为。

library(lme4)
M1 <- lme4(Behaviour ~ Treatment+Subspecies+Sex + (1|Individual)+(1|Stimulus-ID), data=data)

其中行为是连续的,治疗、亚种和性别都是分类的。个人和刺激 ID 设置为随机变量,因为这是一个重复设计(针对个人),我想通过控制我的刺激(例如,鸟歌播放)来减少伪复制,就像在行为研究中经常做的那样。

在早期的努力中,我发现治疗和性在某些行为环境中很重要,而在其他环境中亚种很重要(但这些固定因素之间的相互作用并不重要)。然而,在现场,我注意到其他协变量在我在完整模型中运行时显得很重要。例如,记录记录的行为的时间是整体行为的重要预测指标。

然而,我最感兴趣的是治疗、亚种和性别的影响。我想控制这个令人困惑的变量(以及其他变量),但我对为此编码的正确方法感到非常困惑,我将不胜感激任何人可能有的见解。也就是说,我知道一天中的时间对于预测行为很重要,所以我想说明这一点,以便我能够充分理解治疗/亚种/性别对个人行为的影响。

如果这写得不好或需要进一步澄清,我很乐意提供更多见解。提前感谢您的帮助和您的任何建议!

1个回答

您曾表示您认为Time这是该分析中的一个混杂变量。如果是这样,那么您应该将 Time 其作为协变量包含在分析中。

但是,在这样做之前,重要的是要确保该变量确实是(潜在的)混杂因素或竞争性暴露。

要成为混杂因素,它必须是结果的原因或原因的代理以及暴露的原因或原因的代理。因此,在这种情况下,如果Time导致Behaviour AND也导致任何其他暴露,那么它确实是一个混杂因素。它似乎不太可能是Sexor的原因Subspecies,但如果它确定Treatment给定的,那么它是一个混杂因素,并且应该作为协变量包括在内,以便获得对其他固定效应的无偏估计。(以及它的统计意义)的估计Time是不相关的(如果它是一个混杂因素,则不应解释)。

另一方面,如果Time在从暴露到结果的因果路径上,例如,如果Treatment给定取决于一天中的时间,那么它是一个中介,不应作为协变量包括在内 - 包括回归中的中介可以引发逆转悖论(例如辛普森悖论) - 参见 Tu et al (2008)

最后,如果Time不是暴露的原因(但是结果的原因),则应将其视为竞争暴露,并作为协变量包含在模型中;这将提高您感兴趣的其他固定效应估计的准确性。

参考文献:
Tu, YK, Gunnell, D. 和 Gilthorpe, MS, 2008。辛普森悖论、洛德悖论和抑制效应是相同的现象——逆转悖论。流行病学中的新兴主题,5(1),p.2。