重复测量方差分析:什么是正态假设?

机器算法验证 方差分析 重复测量 假设 正态假设
2022-02-01 00:00:28

我对重复测量方差分析中的正态假设感到困惑。具体来说,我想知道究竟应该满足什么样的常态。在阅读有关 CV 的文献和答案时,我遇到了这个假设的三个不同的措辞。

  1. 每个(重复的)条件内的因变量应该是正态分布的。

    人们经常说 rANOVA 具有与 ANOVA 相同的假设,外加球形度。这就是Field 的Discovering 统计数据以及 Wikipedia关于该主题的文章和Lowry 的文本中的主张

  2. 残差(所有可能对之间的差异?)应该是正态分布的。

    我在 CV ( 1 , 2 )的多个答案中找到了这个陈述。通过将 rANOVA 类比为配对 t 检验,这似乎也很直观。

  3. 应满足多元正态性。

    维基百科和这个来源提到了这一点。另外,我知道 rANOVA 可以与 MANOVA交换,这可能值得这个说法。

这些在某种程度上是等价的吗?我知道多元正态性意味着DV 的任何线性组合都是正态分布的,所以 3. 自然会包括 2. 如果我正确理解后者。

如果这些不相同,那么 rANOVA 的“真实”假设是什么?你能提供一个参考吗?

在我看来,第一个主张得到了大多数人的支持。但是,这与通常在此处提供的答案不一致。


线性混合模型

由于@utobi 的提示,我现在了解如何将 rANOVA 重新表述为线性混合模型。具体来说,为了模拟血压如何随时间变化,我将预期值建模为:

E[yij]=ai+bitij,
在哪里yij是血压的测量值,ai的平均血压i-th 主题,和tij作为j- 第一次i- 测量对象,bi表示血压的变化也因受试者而异。这两种效应都被认为是随机的,因为受试者的样本只是人口的一个随机子集,这是人们最感兴趣的。

最后,我试图思考这对常态意味着什么,但收效甚微。套用 McCulloch 和 Searle (2001, p. 35. Eq. (2.14)):

E[yij|ai]=aiyij|aiindep. N(ai,σ2)aii.i.d. N(a,σa2)

我理解这意味着

4.每个人的数据都需要正态分布,但是时间点少,测试不合理。

我采取第三个表达的意思是

5.个别科目的平均值呈正态分布。请注意,这是在上述三种可能性之上的另外两种不同的可能性。


McCulloch,CE 和 Searle,SR(2001 年)。广义、线性和混合模型纽约:约翰威利父子公司

2个回答

如果我们将其视为单变量模型,这是最简单的重复测量方差分析模型:

yit=ai+bt+ϵit

在哪里i代表每个案例和t我们测量它们的时间(所以数据很长)。yit表示一个叠加的结果,ai表示每种情况的平均值,bt表示每个时间点的平均值,并且ϵit表示单个测量值与案例和时间点均值的偏差。您可以在此设置中包含其他中间因子作为预测变量。

我们不需要做出分布假设ai,因为它们可以作为固定效应、虚拟变量进入模型(与我们对线性混合模型所做的相反)。时间假人也会发生同样的情况。对于此模型,您只需将长形式的结果与人假人和时间假人进行回归。感兴趣的效果是时间虚拟变量,F- 检验零假设的检验b1=...=bt=0是单变量重复测量方差分析中的主要检验。

什么是必要的假设F- 测试行为是否恰当?与您的问题相关的是:

ϵitN(0,σ)these errors are normally distributed and homoskedastic

有额外的(更重要的)假设F-测试是有效的,因为人们可以看到数据不是相互独立的,因为个体在行之间重复。

如果您想将重复测量 ANOVA 视为多变量模型,则正态性假设可能会有所不同,我无法将它们扩展到您和我在 Wikipedia 上看到的内容之外。

重复测量方差分析的正态性解释可以在这里找到:

理解重复测量方差分析假设以正确解释 SPSS 输出

您需要残差中因变量的正态性(这意味着所有组中的正态分布,具有共同方差和组相关平均值),如回归。
正如您所注意到的,多元正态性意味着因变量的所有线性组合都是正态分布的,因此它是比单个变量的正态性更强的概念(31)。但是,我不相信这意味着残差的正态性(32),给定的残差也由自变量(组,在 ANOVA 中)确定。我同意你的观点5:您基本上是在谈论具有正态分布的个体级随机效应。