为什么要从混合效应模型中进行预测,而不包括预测的随机效应?

机器算法验证 r 多重回归 混合模式 lme4-nlme
2022-03-21 10:03:10

这更像是一个概念性问题,但当我使用时,R我将参考R. 如果目标是为了预测的目的拟合线性模型,然后在随机效应可能不可用的情况下进行预测,那么使用混合效应模型有什么好处,还是应该使用固定效应模型?

例如,如果我有关于体重与身高的数据以及其他一些信息,并使用 构建以下模型lme4,其中主题是与n水平(n=no.samples):

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

然后我希望能够使用新的身高和年龄数据从模型中预测体重。显然,模型中捕获了原始数据中的个体差异,但是否可以在预测中使用这些信息?假设我有一些新的身高和年龄数据,并且想预测体重,我可以这样做:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

这将使用predict.merMod,我可以在newdf或 set中包含(新)主题的列re.form =~0在第一种情况下,尚不清楚模型对“新”主题因素做了什么,在第二种情况下,模型中捕获的按主题方差是否会被简单地忽略(平均)以进行预测?

在任何一种情况下,在我看来,固定效应线性模型可能更合适。事实上,如果我的理解是正确的,那么如果预测中没有使用随机效应,那么固定效应模型应该预测与混合模型相同的值。应该是这样吗?它不是,R例如:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

产生不同的结果:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age


1个回答

简单的思维实验:你测量了 5 个婴儿出生后的体重和身高。两年后你又从同一个婴儿身上测量了它。同时,您几乎每周都会测量您的宝贝女儿的体重和身高,从而为她生成了 100 个值对。如果您使用混合效果模型,则没有问题。如果您使用固定效应模型,您会过度重视女儿的测量结果,以至于如果您仅使用她的数据,您将获得几乎相同的模型拟合。因此,正确模拟重复测量或不确定性结构不仅对推理很重要,而且对预测也很重要。通常,您不会从混合效应模型和固定效应模型(违反假设)获得相同的预测。

我可以在 newdf 中包含(新)主题的列

您无法预测不属于原始(训练)数据的主题。又是一个思想实验:新对象是肥胖的。模型如何知道它处于随机效应分布的上端?

模型中捕获的个体差异是否会被简单地忽略(平均)以进行预测

如果我理解正确,那么是的。该模型为您提供了总体预期值的估计值(请注意,该估计值仍以原始受试者为条件)。