偏离方差分析中的正态假设:峰度或偏度更重要?

机器算法验证 方差分析 正态假设 偏度 峰度
2022-03-06 04:41:58

Kutner 等人应用的线性统计模型。陈述以下关于偏离 ANOVA 模型的正态性假设的内容:就推断的影响而言,误差分布的峰度(或多或少比正态分布达到峰值)比分布的偏度更重要

我对这个说法感到有些困惑,无论是在书上还是在网上都没有找到任何相关信息。我很困惑,因为我还了解到带有重尾的 QQ 图表明正态性假设对于线性回归模型“足够好”,而倾斜的 QQ 图更值得关注(即转换可能是合适的) .

我对 ANOVA 的推理是否正确,并且他们对单词的选择(在对推理的影响方面更重要)只是选择不当?即,偏态分布具有更严重的后果,应该避免,而少量的峰态是可以接受的。

编辑:正如 rolando2 所说,很难说一个在所有情况下都比另一个更重要,但我只是在寻找一些一般性的见解。我的主要问题是,我被告知在简单的线性回归中,尾部较重(=峰度?)的 QQ 图是可以的,因为 F 检验对此非常稳健。另一方面,倾斜的 QQ 图(抛物线形)通常是一个更大的问题。这似乎直接违背了我的教科书为 ANOVA 提供的指导方针,即使 ANOVA 模型可以转换为回归模型并且应该具有相同的假设。

我确信我忽略了某些东西,或者我有一个错误的假设,但我无法弄清楚它可能是什么。

2个回答

这个问题在Khan 和 Rayner 的“多样本位置问题的常见测试的非正态性的鲁棒性”中得到了解决。

他们发现 ANOVA 测试受峰度的影响远大于偏度,并且偏度的影响与其方向无关。

如果怀疑偏离正态,Kruskal-Wallis 检验可能是更好的选择。Kruskal-Wallis 检验对偏离正态性更稳健,因为它检查了治疗中位数相同的假设。ANOVA 检查治疗均值相同的假设。

困难在于偏度和峰度是相关的;它们的影响不能完全分开。

问题是,如果要检查高度偏斜分布的影响,还必须有一个具有高峰度的分布。

特别是峰度* skewness2+1

*(普通缩放的四阶矩峰度,而不是过度峰度)

Khan 和 Rayner(在前面的回答中提到过)与一个允许对偏度和峰度的影响进行一些探索的家庭合作,但他们无法避免这个问题,因此他们试图将它们分开的尝试严重限制了偏度和峰度的影响程度可以探索偏度。

如果保持峰度 ( ) 不变,则不能使偏度超过如果希望考虑单峰分布,则偏度会受到更多限制。β2β21

例如,如果您想查看高偏度的效果 - 比如说偏度 > 5,您无法获得峰度小于 26 的分布!

因此,如果要调查高偏度的影响,就无法避免调查高峰度的影响。因此,如果您确实尝试将它们分开,您实际上无法评估将偏度增加到高水平的效果。

也就是说,至少对于他们考虑的分布族,并且在它们之间的关系构成的范围内,Khan 和 Rayner 的调查似乎确实表明峰度是主要问题。

然而,即使结论是完全一般的,如果你碰巧有一个(比如说)偏度为 5 的分布,说“但问题不在于偏度!”可能会让人感到不舒服。-- 一旦你的偏度是,你就不能得到一个正常的峰度,除此之外,最小可能的峰度随着偏度的增加而迅速增长。>2