假设在一项对 15 名受试者的研究中,响应变量 (res) 使用两个解释变量建模,一个 (level) 是具有 5 个级别的分类变量,另一个 (response time: RT) 是连续的。使用 R 的 lme4 包中的 lmer ,我有:
fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)
Df Sum Sq Mean Sq F value
level 4 3974.9 993.7 9.2181
RT 1 1953.5 1953.5 18.1209
level:RT 4 5191.4 1297.9 12.0393
如果我改变两个变量的顺序,我得到的主效应结果略有不同:
fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)
Df Sum Sq Mean Sq F value
RT 1 1671.8 1671.8 15.5077
level 4 4256.7 1064.2 9.8715
RT:level 4 5191.4 1297.9 12.0393
这种差异是否来自 lme4 在考虑数据可变性时的顺序(而不是边际)方法?在这种情况下,可变顺序变化不会导致很大的差异,但之前我已经看到了巨大的差异。如此大的差异意味着什么?这是否意味着模型需要更多的调整,直到大的差异消失?
我的第二个问题是,如果我想知道两者中的哪个变量(RT 和水平)导致更多的数据可变性,那么合理的方法是什么?基于两个变量的 Sum Sq(或 Mean Sq)的相对大小?任何统计测试方法来比较解释变量之间的变异性?