是否有统计原因不使用 Satterthwaite 的方法来解释不等方差?

机器算法验证 方差分析 方差 异方差 萨特思韦特
2022-03-11 14:16:18

两个相关问题:

1)根据我的阅读,使用 Satterthwaite 自由度并不假定方差相等,这使得它可以用于不适合例如 vanilla ANOVA 的数据集。然而,从概念的角度来看,我希望使用一种做出较少假设的方法在统计上的效力也一定会降低。这是真的?

2) 如果方差中存在已知的系统偏差(例如,随着均值的增加而增加方差),可以采用两种方法:

  • A)纠正系统偏差并假设方差相等,或
  • B) 依靠 Satterthwaite 的方法作为一般解决方案。

我目前的理解是选项 A) 更可取,因为它可以进行更强大的测试(参见上面的问题 1)),但还有其他原因吗?

资料来源会有所帮助。

1个回答

对于 2 样本 t 检验。对于双样本 t 检验,我认为现在使用 Welch 双样本 t 检验是标准做法,除非有强有力的先前证据(例如,来自同一类型的数据)表明总体方差相等。在某些统计软件包中,Welch 检验是默认的 2 样本 t 检验,因此如果需要,必须特别请求检验的合并版本。(例如,我知道 Welch 检验是 R 和 Minitab 中的默认值。我相信其他一些统计软件程序会显示两种检验的 P 值。)

Welch 双样本 t 检验使用 Satterthwaite DF,它通常小于合并 2 样本 t 检验的 DF(从不大于)。这意味着 Welch 2 样本 t 检验的功效略小于合并检验的功效,通常不足以小到实际用途。但是,当样本量非常小且样本标准差相似时,一些统计学家确实对标准实践进行了例外处理。n1+n22

对于单向方差分析。但是,在 R as 中实现的 Satterthwaite(或 Welch)ANOVAoneway.test相对较新,并且对 Satterthwaite ANOVA 的审查程度与对 Satterthwaite 2 样本 t 检验的审查程度不同。我看到的一些有限的模拟研究和我自己的经验让我觉得默认使用 Satterthwaite ANOVA 很舒服。但我认为还不能说使用 Satterthwaite ANOVA 是“标准做法”。

在这一点上,我不得不承认,对 Satterthwaite 单向 ANOVA 的强烈偏好仍然是个人意见问题(即使相当普遍)。因此,我们可能会在这里看到其他表达不同意见的答案。

附录:作为对评论的回应,这里是一个模拟调查 Welch ANOVA 行为的示例。

如果样本量不同并且选择较小样本的总体具有比其他总体更大的方差,则已知两样本合并 t 检验表现不佳。具体来说,如果总体均值相同,则真实显着性水平可能会被大大夸大。

在这里,我们使用模拟来研究标准 ANOVA(假设总体方差相等)在类似情况下的行为,并将行为与 Welch ANOVA 在相同情况下的行为进行比较。特别是,我们使用样本大小 5、10 和 15,以及各自的总体标准差 7、3
和 1。

为了确保我们准确评估在 R 中实现的 ANOVA 版本,我们模拟了 100,000 个数据集,在 R 中运行了两个 ANOVA,并查看了 200,000 个生成的 P 值。因为 R 对每个 ANOVA 进行格式化,只供我们在每种情况下使用 P 值,代码效率低且运行缓慢。

set.seed(2020)
m = 10^5;  pv.e = pv.w = numeric(m)
for(i in 1:m){
 x1 = rnorm( 5, 50, 7)
 x2 = rnorm(10, 50, 3)
 x3 = rnorm(15, 50, 1)
 x = c(x1,x2,x3)
 g = as.factor(rep(1:3, c(5,10,15)))
 pv.w[i] = oneway.test(x~g)$p.val
 pv.e[i] = summary(aov(x~g))[[1]][1,5]
}
mean(pv.e <= .05)
[1] 0.2496
mean(pv.w <= .05)
[1] 0.05673

相当错误地假设人口方差相等,标准 ANOVA 的实际拒绝率约为 25%,而测试旨在达到 5% 的水平。这可能导致人口差异的大量错误“发现”,而这些差异根本没有。

相比之下,Welch ANOVA 的拒绝率约为 5.7%,而预期水平为 5%。在这种有问题的情况下,这不是一个完美的结果,但比标准 ANOVA 的灾难性结果有了很大的改进。

下面是两个测试的模拟 P 值的直方图。在原假设下,具有连续检验统计量的检验的 P 值应该是标准统一的(条形大致为绿线的高度)。

在此处输入图像描述