当方差分析中违反同方差假设时,可能发生的最坏情况是什么?

机器算法验证 方差分析 异方差 假设
2022-03-14 19:18:13

这是我在查看这篇文章后提出的一个后续问题:非正态异方差数据的均值统计检验差异?

需要明确的是,我是从务实的角度提出的(并不是说不欢迎理论上的回应)。当组间存在正态(不同于上面提到的问题的标题),但组间的差异有很大不同时,研究人员可能观察到的最坏情况是什么?

根据我的经验,这种情况下出现最多的问题是事后比较中的“奇怪”模式。(这在我发表的作品和教学环境中都观察到了......很高兴在下面的评论中提供详细信息。)我观察到的情况类似于:你有三个小组M1<M2<M3. (综合)方差分析给出p<α, 和成对的t-测试建议M2与其他两组在统计学上有显着差异......但是M1M3没有统计学上的显着差异。我的部分问题是,如果这就是其他人观察到的情况,而且,您在类似情况下还观察到了哪些其他问题?

对我的参考文本的快速回顾表明,ANOVA 对于轻度到中度违反同方差假设的情况相当稳健,在大样本量下更是如此。但是,这些参考资料并未具体说明 (1) 可能出现的问题或 (2) 大量组可能发生的情况。

3个回答

基于一般线性模型的均值组比较通常被认为对违反方差同质性假设具有一般鲁棒性。然而,在某些情况下绝对不是这种情况,一个相对简单的情况是违反方差同质性假设并且您的组大小存在差异。这种组合可能会增加您的 I 类或 II 类错误率,具体取决于组间方差和样本大小的差异分布

一系列简单的模拟p-values 会告诉你怎么做。首先,我们来看看如何分配p- 当 null 为真、满足方差同质性假设且组大小相等时,值应该看起来像。我们将为两组(xy)中的 200 个观察值模拟相等的标准化分数,运行参数t-test,并保存结果p-value(并重复此 10,000 次)。然后我们将绘制模拟的直方图p-价值观:

nSims <- 10000
h0 <-numeric(nSims)

for(i in 1:nSims){ 
x<-rnorm(n = 200, mean = 0, sd = 1) 
y<-rnorm(n = 200, mean = 0, sd = 1)  
z<-t.test(x,y, var.equal = T) 
h0[i]<-z$p.value 
}

hist(h0, main="Histogram of p-values [H0 = T, HoV = T, Cell.Eq = T]", xlab=("Observed p-value"), breaks=100)

在此处输入图像描述

的分布p-values 应该是相对统一的。但是,如果我们使组y的标准差是组x的5 倍(即违反方差同质性)呢?

在此处输入图像描述

还是蛮统一的。但是,当我们将违反的方差同质性假设与组大小的差异(现在将组x的样本量减少到 20)结合起来时,我们遇到了重大问题。 在此处输入图像描述

一组中较大的标准偏差和另一组中较小的组大小的组合在我们的 I 类错误率中产生了相当大的膨胀。但两者的差异也可以反过来发挥作用。相反,如果我们指定一个总体,其中 null 为假(组x的平均值是 0.4 而不是 0),并且一个组(在这种情况下,组y)具有更大的标准偏差和更大的样本量,那么我们实际上可以损害我们检测真实效果的能力:

在此处输入图像描述

所以总而言之,当组大小相对相等时,方差同质性不是一个大问题,但是当组大小不相等时(因为它们可能在准实验研究的许多领域中存在),方差同质性真的会夸大你的 I 型或 II 错误率。

格雷格,您是指正常的异方差数据吗?你的第二段似乎是这样建议的。

我在您引用的原始帖子中添加了一个答案,其中我建议如果数据是正常的但异方差的,则使用广义最小二乘法可以提供最灵活的方法来处理您提到的数据特征。正如您在自己的实践中注意到的那样,不明确考虑这些功能将导致次优且可能具有误导性的结果。结果可能是次优或误导性最终取决于每个数据集的特性。

理解这一点的一个好方法是建立一个模拟研究,您可以在其中改变两个因素:组数和组间变异性变化的程度。然后,当您使用标准 ANOVA(忽略异方差)与 gls(占异方差性)。

也许您可以从一个只有 3 个组的简单示例开始您的模拟练习,其中您保持前两组的可变性相同,但将第三组的可变性改变一个因子 f,其中 f 变得越来越大。这将允许您查看第三组是否以及何时开始主导结果。(为简单起见,三组之间的平均结果值的差异可以保持不变,尽管您可以查看共同差异的大小如何与第三组的变异性大小相关。)

我认为很难对忽略异方差性时究竟会出现什么问题做出一般性评估,除了警告人们在存在更好的处理方法时忽略异方差性是不明智的。

好吧,对于非正态异方差数据,在最坏的情况下,您可能根本没有任何意义。考虑从

12πσ[(r1μ1)2+(r2μ2)2+σ2]32,
如果您从两种股票证券中获取回报,您会得到这个结果,那么 ANOVA 会产生与现实不相关的完全随机的结果。无论样本大小如何,它的幂都为零。