让我们有一些数据(如下所示)、预测和 Y 以及两个因子 X1 和 X2。X1 有 2 组,X2 有 3 组。(在这个特定的例子中,设计是不完整的,因为组合 X1=2 & X2=3 不存在。)
让我们运行 GLM 命令(如图所示)。设置为默认值:全因子模型、SS III 类型的正方形、存在截距。该命令要求打印出所有因子组及其组合的观测均值,并打印出相应的估计均值。它还保存 Y 的预测值(以下显示为“pre”)。
UNIANOVA y BY x1 x2
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/SAVE=PRED
/EMMEANS=TABLES(OVERALL)
/EMMEANS=TABLES(x1)
/EMMEANS=TABLES(x2)
/EMMEANS=TABLES(x1*x2)
/PRINT=DESCRIPTIVE
/CRITERIA=ALPHA(.05)
/DESIGN=x1 x2 x1*x2.
y x1 x2 pre
.725581 1 1 .725581
-.147728 1 2 .046662
.496867 1 2 .046662
-.985803 1 2 .046662
-.139656 1 2 .046662
-.381405 1 2 .046662
1.437696 1 2 .046662
.039809 1 3 -.748909
-1.537626 1 3 -.748909
-.402714 2 1 .159152
1.900394 2 1 .159152
.883087 2 1 .159152
-1.744157 2 1 .159152
1.009084 2 2 .288968
1.169746 2 2 .288968
.579917 2 2 .288968
-1.022533 2 2 .288968
-.587685 2 2 .288968
.814123 2 2 .288968
.003084 2 2 .288968
-1.068938 2 2 .288968
-.175502 2 2 .288968
1.290405 2 2 .288968
1.166946 2 2 .288968
-.645831 2 3 -.645831
1.061533 3 1 1.061533
1.143789 3 2 .676997
.210205 3 2 .676997
-.643339 3 3 -.360148
-.076957 3 3 -.360148
让我们比较打印出来的观察和估计均值(我在这里不显示这些表格)。首先,我们可以注意到在设计的最低(单元格)级别,即在组 X1 * X2 的组合级别上,估计均值等于观察均值。这是因为我们使用了饱和的全因子模型,包括因子之间所有可能的相互作用。其次,我们可以看到,当涉及到较高、边际水平的均值时,估计均值(通常)不等于观测均值。例如,X1=1 的观测边际平均值为 -0.05470,相应的估计平均值为 0.00778。
我们能说明这种差异的根源吗?是的。观察到的边际平均值对应于预测值的简单平均值。对于 X1=1,这mean(.725581,.046662,.046662,.046662,.046662,.046662,.046662,-.748909,-.748909) = -0.05470与观察值的简单平均值相同mean(.725581,-.147728,.496867,-.985803,-.139656,-.381405,1.437696,.039809,-1.537626) = -0.05470。另一方面,估计的边际均值是通过平均具有相同权重的折叠组的预测值来给出的。也就是说,X2=1、X2=2、X2=3 尽管频率不等,但它们的权重相同,等等0.00778 = mean(.725581,.046662,-.748909)。您可能会得出结论,如果设计是平衡的 - 单元包含相等的频率 - 估计和观察到的平均值将彼此相等。
这是对简单案例的简单解释(“简单案例”是指默认值,例如 III 型 SS、截距、无协变量)。您可以查阅“SPSS Algorithms”帮助文档以了解在一般情况下如何实际计算估计的预期均值。