线性混合效应建模中的变量阶数和计算变量

机器算法验证 混合模式 lme4-nlme
2022-03-10 20:23:01

假设在一项对 15 名受试者的研究中,响应变量 (res) 使用两个解释变量建模,一个 (level) 是具有 5 个级别的分类变量,另一个 (response time: RT) 是连续的。使用 R 的 lme4 包中的 lmer ,我有:

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

如果我改变两个变量的顺序,我得到的主效应结果略有不同:

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

这种差异是否来自 lme4 在考虑数据可变性时的顺序(而不是边际)方法?在这种情况下,可变顺序变化不会导致很大的差异,但之前我已经看到了巨大的差异。如此大的差异意味着什么?这是否意味着模型需要更多的调整,直到大的差异消失?

我的第二个问题是,如果我想知道两者中的哪个变量(RT 和水平)导致更多的数据可变性,那么合理的方法是什么?基于两个变量的 Sum Sq(或 Mean Sq)的相对大小?任何统计测试方法来比较解释变量之间的变异性?

1个回答

我将尝试一一回答您的问题:

这种差异是否来自 lme4 在考虑数据可变性时的顺序(而不是边际)方法?

正确的。如您所见,只有交互的结果是相同的。在这两种情况下,交互作用最后输入到模型中,因此该项的结果是相同的。但是,如果您先输入“level”,然后输入“RT”,则“RT”的结果会告诉您在“level”已经在模型中之后“RT”是否显着(反之亦然)。这些结果是顺序相关的。

如此大的差异意味着什么?

假设这两个变量本身都与响应变量密切相关,但它们也密切相关。在这种情况下,响应变量中可能不会有太多的可变性,要由第二次输入模型的变量来解释。因此,当解释变量相关时,您往往会看到更显着的差异。

这是否意味着模型需要更多的调整,直到大的差异消失?

我不确定您所说的“调整”是什么意思。您观察到的现象本身不是问题,尽管它确实使结果的解释复杂化(见下文)。

也许“调整”的一种方式就是这样。如果解释变量高度相关,那么它们可能本质上测量的是同一件事。在这种情况下,可以通过删除一个变量或将它们组合成一个变量来“调整”模型。

我的第二个问题是,如果我想知道两者中的哪个变量(RT 和水平)导致更多的数据可变性,那么合理的方法是什么?基于两个变量的 Sum Sq(或 Mean Sq)的相对大小?任何统计测试方法来比较解释变量之间的变异性?

当解释变量相关时,很难确定它们的相对重要性。这个问题在多元回归环境中经常出现,并且已经写了几十篇关于这个主题的文章,并且已经提出了很多实现这个目标的方法。对于最合适的方式当然没有共识,有些人甚至可能认为没有足够的方式来做到这一点。

平方和对您没有帮助,因为它们不是基于相同数量的自由度。均方基本上对此是正确的,但是如果您使用均方,那么这只不过是使用相应的 F 值(或 p 值)来确定相对重要性。我认为大多数人不会认为这是确定相对重要性的适当方法。

不幸的是,我没有一个简单的解决方案。相反,我可以从relaimpo包的作者那里向你推荐一个网站。我认为该软件包在拟合混合效果模型时不会对您有所帮助,但是有很多关于您正在处理的问题的论文的参考资料。

http://prof.beuth-hochschule.de/groemping/relaimpo/

您可能还想查看该AICcmodavg软件包:

http://cran.r-project.org/web/packages/AICcmodavg/index.html