从数量上看,Shapiro-Wilk 或其他小样本的分布拟合检验有多强大?

机器算法验证 分布 正态分布 拟合优度 正态假设 夏皮罗威尔克测试
2022-03-19 18:17:08

我正在寻找一种分析(我假设是一本书或网站,但请随时将其全部放在评论中),以深入讨论 Shapiro-Wilk 等正态性评估的功效/准确性。简而言之,我知道夏皮罗-威尔克“对小数据集有好处”,而对于大数据集,它对与正态性的小偏差过于敏感——但这在数量上意味着什么?

总的来说,我想感受一下这样的事情:如果我有 n 个数据点,我有信心 Shapiro-Wilk(和/或其他测试)测试为我提供了一个合理的结论。当 n 为 15 ... 10 ... 7 时,mm% 如何变化?从 100 到 500 ... 1000 怎么样?请注意,我也相信图形评估的力量,但我将其排除在这个问题的范围之外,我正在寻找在这种情况下的数字、定量评估。

3个回答

可以模拟的是 Shapiro-Wilk 检验检测特定非正态分布的能力。这在很大程度上取决于您要检测的确切分布。出于这个原因,可以考虑过多的结果,并且您可以找到测试运行良好和不太好的示例。(这意味着模拟具有特定样本量的特定非正态分布的数据,由此您可以至少大致确定 SW 检验拒绝正态性的概率;越高越好。)

以下是一些模拟 Shapiro-Wilk 测试威力的工作:

Hadi Alizadeh, NR Arghami (2011) 七个正态性检验的蒙特卡洛比较。统计计算与模拟杂志 81(8):965-972 https://www.researchgate.net/publication/232942214_Monte_Carlo_comparison_of_seven_normality_tests

Hadi Alizadeh Noughabi (2018) 对正态性检验能力的综合研究。统计理论与应用杂志 17. 647 - 660 https://www.atlantis-press.com/journals/jsta/125905578/view

Razali, NM & Wah, YB (2011),“Shapiro-Wilk、Kolmogorov-Smirnov、Lilliefors 和 Anderson-Darling 检验的功率比较”,统计建模与分析杂志 2, 21-33。 https://www.nrc.gov/docs/ML1714/ML17143A100.pdf

Danush K. Wijekularathna, Ananda BW Manage & Stephen M. Scariano (2019) 几个正态性检验的功率分析:蒙特卡罗模拟研究,统计通信 - 模拟和计算,DOI:10.1080/03610918.2019.1658780

Thode, HC (2002) Testing for Normality 引用了一些较早的工作。马塞尔·德克尔公司

您正在询问“合理结论”的概率。当且仅当您对合理结论给出足够精确的定义时,您才能得到这个。我也希望有一个程序能够可靠地告诉我偏离正态性的重要性何时足够重要,但是从样本量 1 和 2(任何样本都完全符合正态分布)到任意大样本量——微小的偏差将返回低于常规阈值的显着性水平。

重要的事情取决于你的目的和你对数据的看法,因为统计数据是一种利用个人专业知识和经验的工艺,就像它是一种编码技术一样。例如:

  1. 边际正态分布很少需要,甚至是理想的。

  2. 在实践中,如果我发现非常接近条件正态分布的近似值——例如,在已知对高质量数据而言科学合理的模型的残差中——我会更频繁地怀疑欺诈,而不是隐含地相信结果。

教初学者如何轻松地进行显着性测试是相当困难的,尤其是在坚持高估它的学科中,而且因为在你开始独立了解什么有帮助之前,你必须查看许多数据集。但是初学者可以成长为专家的存在证明是有专家的事实。

编辑通用“测试”是发布数据的正常分位数图以及来自正常大小的随机样本的几个正常分位数图。方便的模拟样本数量可能是 24、35、48,...,当与原始样本结合时,可以显示 5 x 5、6 x 6、7 x 7...显示。这是排队测试,类似于应将嫌疑人与各种任意的人一起展示给证人的想法。如果无法从其他人中识别出嫌疑人,则不支持不同的情况。虽然最近经常重新发明,但这个想法在沃尔特休哈特的主要著作中(并且可能更早)。该测试的一个吸引力是安娜卡列尼娜原则,即每个非正态分布都可能以其不同的方式成为非正态分布。

正如您所提到的,当您提出使用图形检查来评估正常性的任务时,答案是0% n.