Kolmogorov Smirnov Z vs Mann Whitney U 小样本 n=15?

机器算法验证 意思是 wilcoxon-mann-whitney 检验 小样本 中位数 kolmogorov-smirnov 测试
2022-03-25 16:07:08

我有一个 15 的小样本。我想看看两个自变量之间的营养摄入量是否存在差异,第 1 组 n = 11,第 2 组 n = 4。数据不是正态分布的。哪个测试更合适,Mann Whitney U 或 Kolmogorov-Smirnov Z 测试?Andy Field 的Discovering Statistics using SPSS指出 KS Z 应该用于小样本量:

Kolmogorov-Smirnov Z:在第 5 章中,我们遇到了 Kolmogorov-Smirnov 检验,该检验检验样本是否来自正态分布的总体。这是一个不同的测试!事实上,它测试两组是否来自同一人群(无论该人群是什么)。实际上,这意味着它与 Mann-Whitney 测试几乎相同!但是,当样本量少于每组 25 个时,此检验往往比 Mann-Whitney 检验具有更好的功效,因此在这种情况下值得选择。

此外,在报告摄入量和 p 值时,我应该使用均值和标准差还是中值和 IQR,因为数据是非参数的?

任何建议将不胜感激。

1个回答

如果原始陈述没有限制它相当大地适用的条件,那么 Field 就是错误的。

回应引用的部分:

实际上,这意味着它与 Mann-Whitney 测试几乎相同!

不,真的没有。他们真的测试不同种类的东西。举个例子,如果两个接近对称的分布在传播上不同但在位置上没有不同,那么 Kolmogorov-Smirnov 可以识别出这种差异(相对于效应而言,在足够大的样本中),但 Wilcoxon-Mann-Whitney不能。

这是因为它们是为不同的目的而设计的。

“然而,当样本量小于每组 25 个时,该测试往往比 Mann-Whitney 测试具有更好的功效,因此在这种情况下值得选择。”

作为一般说法,这是无稽之谈。对于曼惠特尼没有测试的东西,它有更好的力量,但对于曼惠特尼的目的,它没有。这不会改变n<25.

[在某些情况下,索赔是真实的;如果菲尔德没有解释他的主张适用于什么背景,我不太可能猜到。]

这是每组 n=20 的功率曲线。每个测试的显着性水平略高于 3%(事实上,KS 的可实现显着性水平略高,我没有尝试使用随机测试来调整该差异,因此在此比较中它获得了一点优势):

在每组 n = 20 的移位替代下正常样本的各种移位的功率图

正如我们所看到的,在这种情况下(我尝试的第一个),Wilcoxon-Mann-Whitney 显然更强大。

在 n=5 时,Kolmogorov-Smirnov 在这种情况下仍然不那么强大。【那他到底在说什么?他是在比较报价中未提及的某些情况下的力量吗?我不知道,但仅仅根据这里引用的内容,我们不应该从表面上看待这种说法。在我检查的第一件事中它是错误的,并且 - 基于对这两个测试的更广泛熟悉,我很容易打赌它对于一堆其他情况是错误的。]

同样,对于轮班替代方案(和正常人群),样本量为 4 和 11 时,Wilcoxon-Mann-Whitney 做得更好。

对于您正在查看的变量,合适的替代方案可能更像是比例转换;但是,如果您的数据的某些幂(例如平方根或立方根,或者更好的是日志)看起来不是太不正常,那么我提到的这些结果应该是相关的。如果您有离散或零膨胀数据可能会产生一些影响,但我敢打赌,Kolmogorov-Smirnov 也不会超过 Wilcoxon-Mann-Whitney。[我目前不会追究,因为不清楚它是否与您的情况有关。]

此外,在小样本量下,Kolmogorov-Smirnov 可达到的显着性水平差异很大。您通常无法获得接近您可能想要的通常显着性水平的测试。(在可用的测试规模方面,WMW 比 KS 做得好得多。有一种巧妙的方法可以显着改善这种水平差距情况,而不会失去此类测试的非参数或基于等级的性质 - 这也不会涉及随机测试——但由于某种原因,它似乎很少使用。)

请注意,我仔细选择了使两个测试的水平接近可比的示例。如果你只是选择α=0.05每次不考虑可用水平并将 p 值与之进行比较,那么 Kolmogorov-Smirnov 可达到水平的差距一般都会使其能力变得更糟(尽管偶尔会像这里一样帮助它 -这些优势通常不会太大,而且可能不足以帮助它在适合的任务中击败 WMW)。

如果您处于 Wilcoxon-Mann-Whitney 测试您想要测试的内容的情况下,我绝对不建议您使用 Kolmogorov-Smirnov。我会将每个测试用于他们旨在测试的内容,这是他们往往做得相当好的地方。

找出什么是最好的最好方法是在对你将拥有的数据类型来说是现实的情况下尝试一些模拟。然后你可以看到它什么时候做什么。

此外,在报告摄入量和 p 值时,我应该使用均值和标准差还是中值和 IQR,因为数据是非参数的?

数据只是数据。它们既不是参数也不是非参数——这是我们使用的模型和推理程序的属性,它们依赖于它们(估计、测试、间隔)。参数的意思是“定义为固定的、有限数量的参数”,它不是数据的属性,而是模型的属性。如果您不能只给出两组值(这将是我的偏好),而必须选择其中一个,哪个在科学上或与您感兴趣的问题更相关?

[Note that the Wilcoxon-Mann-Whitney doesn't compare either means or medians (unless you add some assumptions I bet don't come close to applying in this case). Nor does the Kolmogorov-Smirnov.]


Also when reporting the intakes along with the p values, should I use mean and standard deviation or median and IQR

My general advice is to report what makes sense to report for that variable (without worrying very much about what its distribution might be); if you want to know something about the population mean, the sample mean generally makes sense to report, similarly for the population median. Personally I rarely look at only one summary statistic and when reading a paper, I am interested in more than one.

Neither sample means nor sample medians will correspond to what either of the tests here are comparing.