关于多因素方差分析的一个可能非常基本的问题。假设我们测试主效应 A、B 和交互作用 A:B 的双向设计。当用 I 型 SS 测试 A 的主效应时,效应 SS 计算为差值, 在哪里是仅具有截距的模型的残差平方和,并且添加了因子 A 的模型的 RSS。我的问题涉及错误术语的选择:
您如何证明此检验的误差项通常是根据包含主效应和交互作用的完整模型 A + B + A:B 的 RSS 计算得出的?
...而不是从实际比较中获取无限制模型中的误差项(RSS 仅来自上述情况下的主效应 A):
这会有所不同,因为在比较中,来自完整模型的误差项可能经常(并非总是)小于来自不受限制模型的误差项。似乎误差项的选择有些武断,仅通过添加/删除并不真正感兴趣的因素来为所需的 p 值变化创造空间,但无论如何都要更改误差项。
在以下示例中,A 的 F 值会根据完整模型的选择而发生显着变化,即使效果 SS 的实际比较保持不变。
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
相同的问题适用于 II 型 SS,通常适用于一般线性假设,即完整模型中受限模型和非受限模型之间的模型比较。(对于 III 型 SS,无限制模型始终是完整模型,因此问题不存在)