我认为,Shapiro Wilk 受欢迎的最终原因与 Pubmed 或 NIST 的关系不大,而是与它在各种感兴趣的情况下的出色能力有关(这反过来会导致更广泛的实施并因此而流行);在与其他可能的选择进行功率比较时,它通常会在各种非正态分布中排名靠前。我不会声称这是对常态的最佳综合测试,但它是一个非常可靠的选择。
如果由于将普通实数四舍五入到某个合理数量的数字而导致超出此范围的关系,则可以立即拒绝正态性(例如,如果您的数据是计数的!)。
两个样本给出相同读数的情况相当罕见,尽管它们可能共享小数点后几位。
偶尔出现的这种关系——或一小部分关系——对夏皮罗-威尔克来说应该没有问题。
夏皮罗威尔克受到领带的影响,但一些领带应该不是大问题。
罗伊斯顿,1989[1] 说:
如果分组间隔超过 0.1 个标准差单位,则不应使用夏皮罗-威尔克检验 [...]。
这是相当大的。对于正态分布,0.1 sd 的分组间隔只会在 100 个中产生大约 35 个唯一值。这是 Royston 在 n=100 的边缘情况的示例:

其中一个值重复十次。这就是他所说的没关系(只是)。
您需要非常小的 sds 或非常重的舍入才能做得比这更糟。
同一篇论文建议对这种情况下的关系进行修改。
具体来说,我应该考虑改用 D'Agostino-Pearson(由于某种原因,一些人不太喜欢)
如果您的意思是基于 skewness 和 kurtosis 的测试,那么原因就很明显了。它的整体表现并没有那么好。如果偏度或峰度存在差异,这是一个很好的测试,通常显示出相当好的功效,但并非每个非正态分布在偏度或峰度方面都存在实质性差异。实际上,找到具有与正态相同的偏度和峰度的明显非正态分布是一件小事。
这里有一个示例,其偏度和峰度与正常情况相同,但您一眼就能看出它是非正常的!(您可能会发现该帖子的用途更广泛。)
D'Agostino测试对它们的能力很差,但夏皮罗-威尔克对它们没有任何问题。K2
有没有人有理由说明两个值应该有多相似才能被视为关系?
对于与领带相关的统计问题(如这里),如果它们与您拥有的数字完全相同,通常它们是并列的。当然,如果您给出的数字多于有意义的数字,那可能是一个不同的问题。
[1]:Royston, JP (1989),
“修正 Shapiro-Wilk W的关系”
,统计计算与模拟杂志,第 31 卷,第 4 期