D'Agostino-Pearson vs. Shapiro-Wilk 的常态

机器算法验证 可能性 假设检验 拟合优度 正态假设
2022-03-03 16:11:51

在我工作的领域中,使用 Shapiro-Wilk 测试作为默认正态性测试有很大的推动力(可能是由于 NIST 和一些已发表的论文)。我知道 SW 测试的一个弱点是平局值,但我不确定何时应该考虑切换到 D'Agostino-Pearson(由于某种原因,有些人不太喜欢)。我试图帮助确定在不滥用数学的情况下在两者之间切换的最普遍有效的方法。

  1. 当使用夏皮罗威尔克测试明显不合适时,是否有明确的理由说明阈值(即一次重复、三重值、2+ 次不同值的重复、至少有一次重复的样本百分比)?

  2. 更细致入微,我什至不确定这是否是一个适当狭窄的问题,但有没有人有理由说明两个值应该有多相似才能被视为关系?我使用了很多生物样本,由于人为差异、方法学噪音等原因,两个样本给出相同读数的情况相当罕见,尽管它们可能共享小数点后几位的共同点。这听起来可能很无知,但是在两个样本之间取 5% 的差异(或调整估计的实验误差)似乎足够合理,不会对非常注重统计的人感到可笑?

非常感谢您的时间和指导。

1个回答

我认为,Shapiro Wilk 受欢迎的最终原因与 Pubmed 或 NIST 的关系不大,而是与它在各种感兴趣的情况下的出色能力有关(这反过来会导致更广泛的实施并因此而流行);在与其他可能的选择进行功率比较时,它通常会在各种非正态分布中排名靠前。我不会声称这是对常态的最佳综合测试,但它是一个非常可靠的选择。

如果由于将普通实数四舍五入到某个合理数量的数字而导致超出此范围的关系,则可以立即拒绝正态性(例如,如果您的数据是计数的!)。

两个样本给出相同读数的情况相当罕见,尽管它们可能共享小数点后几位。

偶尔出现的这种关系——或一小部分关系——对夏皮罗-威尔克来说应该没有问题。

夏皮罗威尔克受到领带的影响,但一些领带应该不是大问题。

罗伊斯顿,1989[1] 说:

如果分组间隔超过 0.1 个标准差单位,则不应使用夏皮罗-威尔克检验 [...]。

这是相当大的。对于正态分布,0.1 sd 的分组间隔只会在 100 个中产生大约 35 个唯一值。这是 Royston 在 n=100 的边缘情况的示例:

在此处输入图像描述

其中一个值重复十次这就是他所说的没关系(只是)。

您需要非常小的 sds 或非常重的舍入才能做得比这更糟。

同一篇论文建议对这种情况下的关系进行修改。

具体来说,我应该考虑改用 D'Agostino-Pearson(由于某种原因,一些人不太喜欢)

如果您的意思是基于 skewness 和 kurtosis 的测试,那么原因就很明显了。它的整体表现并没有那么好。如果偏度或峰度存在差异,这是一个很好的测试,通常显示出相当好的功效,但并非每个非正态分布在偏度或峰度方面都存在实质性差异。实际上,找到具有与正态相同的偏度和峰度的明显非正态分布是一件小事。

这里有一个示例,其偏度和峰度与正常情况相同,但您一眼就能看出它是非正常的!(您可能会发现该帖子的用途更广泛。)

D'Agostino测试对它们的能力很差,但夏皮罗-威尔克对它们没有任何问题。K2

有没有人有理由说明两个值应该有多相似才能被视为关系?

对于与领带相关的统计问题(如这里),如果它们与您拥有的数字完全相同,通常它们是并列的。当然,如果您给出的数字多于有意义的数字,那可能是一个不同的问题。

[1]:Royston, JP (1989),
“修正 Shapiro-Wilk W的关系”
,统计计算与模拟杂志,第 31 卷,第 4 期