1978 年,我在牛津读硕士时第一次遇到 ANOVA。现代方法通过在多元回归模型中同时教授连续变量和分类变量,使年轻的统计学家很难理解正在发生的事情。因此,回到更简单的时代可能会有所帮助。
在其原始形式中,ANOVA 是一种算术练习,您可以将总平方和分解为与治疗、块、交互等相关的部分。在平衡设置中,具有直观含义的平方和(如 SSB 和 SST)加起来就是调整后的总平方和。这一切都归功于Cochran 定理。使用 Cochran,您可以在通常的零假设下计算出这些项的预期值,并且 F 统计量从那里流出。
作为奖励,一旦您开始考虑 Cochran 和平方和,继续使用正交对比对您的处理平方和进行切片和切块是有意义的。ANOVA 表中的每个条目都应具有统计学家感兴趣的解释,并产生可检验的假设。
我最近写了一个答案,其中出现了 MOM 和 ML 方法之间的差异。问题转向估计随机效应模型。在这一点上,传统的方差分析方法与最大似然估计完全分开,效应的估计不再相同。当设计不平衡时,您也不会获得相同的 F 统计量。
过去,当统计学家想要从裂区或重复测量设计中计算随机效应时,随机效应方差是根据 ANOVA 表的均方计算得出的。因此,如果您有一个方差且残差为的图,则图的均方(“预期均方”,EMS)的期望值为,与σ2pσ2σ2+nσ2pn是图中的分割数。您将均方设置为等于其期望并求解σ2b^. ANOVA 产生了一种随机效应方差的矩估计方法。现在,我们倾向于使用混合效应模型来解决此类问题,并且通过最大似然估计或 REML 获得方差分量。
ANOVA 本身不是矩量程序的方法。它打开将平方和(或更一般地,响应的二次形式)拆分为产生有意义假设的分量。它在很大程度上取决于正态性,因为我们希望平方和具有卡方分布以使 F 检验起作用。
最大似然框架更通用,适用于不适用平方和的广义线性模型等情况。一些软件(如 R)通过将方差分析方法指定为具有渐近卡方分布的似然比检验来引起混淆。人们可以证明使用“anova”一词是合理的,但严格来说,它背后的理论是不同的。