Shapiro-Wilk 正态性检验和 Kolmogorov-Smirnov 正态性检验有什么区别?这两种方法的结果何时会有所不同?
Shapiro-Wilk 正态性检验和 Kolmogorov-Smirnov 正态性检验有什么区别?
您甚至无法真正比较两者,因为 Kolmogorov-Smirnov 是针对完全指定的分布(因此,如果您要测试正态性,则必须指定均值和方差;它们无法从数据中估计*),而Shapiro-Wilk 用于正态性,具有未指定的均值和方差。
*您也不能通过使用估计参数和标准正态测试来标准化;这实际上是一回事。
一种比较的方法是补充夏皮罗-威尔克对正态中指定均值和方差的检验(以某种方式组合检验),或者通过调整 KS 表以进行参数估计(但它不再是分布-自由)。
有这样一个测试(相当于带有估计参数的 Kolmogorov-Smirnov)——Lilliefors 测试;正态性测试版本可以有效地与 Shapiro-Wilk 进行比较(并且通常具有较低的功率)。更具竞争力的是 Anderson-Darling 检验(还必须针对参数估计进行调整才能使比较有效)。
至于他们测试的内容 - KS 测试(和 Lilliefors)着眼于经验 CDF 和指定分布之间的最大差异,而 Shapiro Wilk 有效地比较了两个方差估计;密切相关的 Shapiro-Francia 可视为 QQ 图中平方相关的单调函数;如果我没记错的话,Shapiro-Wilk 还考虑了订单统计数据之间的协方差。
编辑添加:虽然 Shapiro-Wilk 几乎总是在感兴趣的替代品上击败 Lilliefors 测试,但它没有的一个例子是在中大样本中(-ish)。在那里,Lilliefors 拥有更高的权力。
[应该记住,除了这些之外,还有更多可用的正态性测试。]
简而言之,Shapiro-Wilk 检验是对正态性的特定检验,而Kolmogorov-Smirnov 检验使用的方法更通用,但效力较低(这意味着它较少正确拒绝正态性的零假设)。这两种统计量都将正态性作为零值,并基于样本建立检验统计量,但它们的执行方式彼此不同,从而使它们对正态分布的特征或多或少敏感。
如何精确计算 W(Shapiro-Wilk 的检验统计量)有点复杂,但从概念上讲,它涉及按大小排列样本值,并根据预期均值、方差和协方差测量拟合。据我了解,这些与正态性的多重比较比 Kolmogorov-Smirnov 检验更有效,这是它们可能不同的一种方式。
相比之下,Kolmogorov-Smirnov 正态性检验源自通过将预期累积分布与经验累积分布进行比较来评估拟合优度的一般方法,即:
因此,它在分布的中心敏感,而不是尾部。但是,KS 是收敛的,从某种意义上说,随着 n 趋于无穷大,测试收敛到概率的真实答案(我相信Glivenko-Cantelli 定理适用于此,但有人可能会纠正我)。这是这两个测试在评估正态性时可能不同的另外两种方式。