我已经阅读了多个地方,夏皮罗-威尔克测试应该始终添加 QQ 图,但没有人给出原因,我没有看到这背后的直觉。谁能解释为什么需要用 QQ-plot 来确认 Shapiro-Wilk 测试?
Shapiro-Wilk 检验和 QQ-Plot 是否应该始终结合使用?
机器算法验证
正态分布
QQ图
2022-04-13 19:48:21
2个回答
至少有两个原因:
1)夏皮罗威尔克检验,至少如果您基于 p 值做出决定,则取决于样本量。对于小样本,您几乎总是会得出“正常”的结论,而对于足够大的样本,即使与正常的微小偏差也会很重要
2) QQ 图告诉你很多关于分布是如何非正态的,并且可能指向解决方案。
引用会有所帮助,但从表面上看,这种说法是错误的。这里我们最喜欢的问题之一(无论如何是我的一个)是,“正态性检验是否'基本上无用'? ”这个问题的答案通常认为 Q-Q 图比 Shapiro-Wilk 检验更有价值。即,如果要排除其中之一,让它成为夏皮罗-威尔克检验,而不是 Q-Q 图。
许多分析涉及有关利益分布的正态假设,但这些分析对违反此假设的敏感性各不相同。作为显着性检验,Shapiro-Wilk 检验并不直接表明偏离正态性的程度;它会产生一个显着性估计,其中涉及的不仅仅是这个效应大小的组成部分。另一个有点臭名昭著的组件是样本量,正如@PeterFlom 在他的回答中指出的那样,这可能具有误导性。作为一个有点滑稽的改编,rshapiro.test当用户尝试对大于 5000 个观察值的样本执行 a 时引发错误。
此外,Shapiro-Wilk 检验并未将偏度和峰度作为偏离正态分布的不同形式来消除歧义。一些分析可能对偏斜比对峰态更敏感,反之亦然。因此,给定的 Shapiro-Wilk 检验统计量甚至可能无法反映有关同一样本的两个不同分析的正态性假设无效的等效有用信息。相反,作为一种数据可视化技术(而不是假设检验),Q-Q 图可以向受过训练的眼睛揭示更多关于正态假设问题的具体性质,无论是偏斜、峰态还是一些特别讨厌的异常值, ETC。
其它你可能感兴趣的问题