偏斜但钟形仍被视为方差分析的正态分布?

机器算法验证 方差分析 正态分布 偏度
2022-04-19 04:46:56

这可能是一个非常基本的问题,我对我的统计知识有点生疏。

背景:我正在监控网站加载时间性能。为此,我有一个脚本运行并通过各种代理捕获加载时间的数据点(大约 400 个)。每个代理都位于不同的地理位置,但他们测量相同的步骤。

我想确定代理之间是否存在统计差异。因此,如果有人一直报告加载时间性能较慢,我想知道是不是因为代理。我会包含图片,但我需要 10 个声誉点,而我刚刚发现了这个网站。

问题:我有两组来自不同代理的数据,测量网站下载所需的秒数,它们都是钟形的,但都严重向右倾斜。我仍然可以执行 ANOVA 来确定是否存在差异,即使它们是倾斜的?

提前致谢

2个回答

如果分布相似(特别是方差相同)并且组大小相同(平衡设计),您可能没有理由担心。形式上,违反了正态性假设并且它可能很重要,但它不如方差相等假设重要,并且模拟研究表明,只要样本量和方差在所有单元格中都相同, ANOVA 对此类违规行为非常稳健的设计。如果您结合了多个违规行为(例如非正态性和异方差性)或具有不平衡的设计,您将无法再信任 F 检验。

也就是说,分布也会对误差方差产生影响,即使保留了名义误差水平,非正态数据也会严重降低检测给定差异的能力。此外,当您查看偏态分布时,一些较大的值会对均值产生很大影响。因此,有可能两组确实具有不同的平均值(在样本中和总体中),但大多数观察结果(即您的案例中的大多数测试运行)实际上非常相似。因此,平均值可能不是您感兴趣的(或至少不是您感兴趣的全部)。

简而言之,您可能仍然可以使用 ANOVA,因为推理不一定会受到威胁,但您可能还想考虑替代方案来增加权力或了解更多关于您的数据的信息。

另请注意,严格来说,正态性假设适用于残差的分布,因此您应该查看残差图或至少查看每个单元格中的分布,而不是一次查看整个数据集。

ANOVA 对严重偏度有一定程度的敏感性

尤其是时间,往往比速度(反时间)和对数时间更偏斜。如果您感兴趣的问题可以用其中一个来说明(并且它们的偏差较小),那么您可能不必依赖不成立的假设。

此外,甚至更关键的是,您还往往会随着时间(而不是日志时间或速度)获得强烈不同的价差。

你的数据是什么样的?您是否有一些按组显示(例如 QQ 图、箱形图)和摘要(例如平均值、标准差、中位数、四分位数)?