我可以相信非正态分布 DV 的方差分析结果吗?

机器算法验证 方差分析 正态假设
2022-02-02 03:31:01

我用重复测量方差分析分析了一个实验。ANOVA 是一个 3x2x2x2x3,具有 2 个主体间因素和 3 个内部因素(N = 189)。错误率是因变量。错误率分布的偏斜度为 3.64,峰度为 15.75。偏斜和峰度是 90% 的错误率意味着 0 的结果。在这里阅读一些关于正态性测试的先前线程让我有点困惑。我认为,如果您有非正态分布的数据,则尽可能对其进行转换符合您的最大利益,但似乎很多人认为使用 ANOVA 或 T 检验分析非正态数据是可以接受的。我可以相信方差分析的结果吗?

(仅供参考,将来我打算使用具有二项分布的混合模型来分析 R 中的此类数据)

4个回答

与其他参数检验一样,方差分析假设数据符合正态分布。如果您的测量变量不是正态分布的,如果您使用方差分析或其他假设正态性的测试分析数据,则可能会增加假阳性结果的机会。幸运的是,方差分析对偏离正态的适度偏差不是很敏感。使用各种非正态分布的模拟研究表明,这种违反假设的情况对假阳性率的影响不大(Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996)。这是因为当您从总体中抽取大量随机样本时,即使总体不正常,这些样本的均值也大致呈正态分布。

可以测试数据集与正态分布的拟合优度。我不建议您这样做,因为许多显着非正态的数据集非常适合方差分析。

相反,如果你有足够大的数据集,我建议你只看频率直方图。如果它看起来或多或少正常,请继续执行方差分析。如果它看起来像一个被推到一侧的正态分布,就像上面的硫酸盐数据一样,你应该尝试不同的数据转换,看看它们中的任何一个是否使直方图看起来更正常。如果这不起作用,并且数据看起来仍然严重不正常,那么使用 anova 分析数据可能仍然可以。但是,您可能希望使用非参数检验对其进行分析。几乎每个参数统计检验都有一个非参数替代,例如 Kruskal-Wallis 检验而不是单向方差分析,Wilcoxon 符号秩检验而不是配对 t 检验,Spearman 秩相关而不是线性回归。这些非参数检验不假定数据符合正态分布。然而,他们确实假设不同组中的数据具有相同的分布;如果不同的组具有不同的形状分布(例如,一个偏左,另一个偏右),非参数检验可能不会比参数检验好。

参考

  1. Glass、GV、PD Peckham 和 JR Sanders。1972. 未能满足方差和协方差固定效应分析假设的后果。牧师教育。水库。42:237-288。
  2. Harwell,MR,EN Rubinstein,WS Hayes 和 CC Olds。1992. 总结蒙特卡洛方法研究的结果:一因素和二因素固定效应方差分析案例。J.教育。统计。17:315-339。
  3. Lix、LM、JC Keselman 和 HJ Keselman。1996. 重新审视假设违反的后果:对方差 F 检验的单向分析替代方案的定量审查。牧师教育。水库。66:579-619。

特别将错误率视为 DV,Dixon (2008)非常有说服力地证明,通过 ANOVA 进行的零假设检验会导致误报率增加(当它们不是时称效应“显着”)增加未命中率(缺失真实效应)。他还表明,指定二项式分布误差的混合效应建模是分析速率数据的更合适的方法。

你不能相信你的方差分析有那么多的偏差和大量的 0。更合适的方法是使用错误数作为您的 DV(从而将您的 DV 转换为计数数据)并进行泊松分析。这种方法需要使用混合效应分析并将误差分布族指定为泊松。Mike Lawrence 提到的Dixon (2008) * 文章在 R 中使用了混合效应分析,但结果是二项式。对于我的大多数重复测量分析,我已经完全转向使用 R,因为我的许多结果变量都是二项式的。适当的 R 包是lme4.

Dixon, P. (2008)。重复测量设计中的准确性模型。记忆与语言杂志59 (4), 447-456。

胡安提供了很多,尽管我会回应其他人并重复一遍,为了获得最佳准确性,只要它们的残差不是,变量本身就可以是非正态的。此外, yellowbrickstats.com上提供了一个简化且结构稍显结构化的答案(通过带注释的流程图)