为什么KS测试给出了显着的结果?

机器算法验证 kolmogorov-smirnov 测试
2022-03-07 15:50:48

我有两个样本,我想知道它们的分布是否显着不同。我进行了 Kolmogorov-Smirnov 检验,该检验拒绝了原假设 (D=0.0983, p=2.14e-11),使我相信样本确实来自不同的分布。问题是,我如何确定这些样本有什么显着不同?分布的均值是否不同?歪斜?别的东西?相互检查直方图不会立即显示差异。当然,红色样本的值比蓝色样本略低,但这就是导致 KS 检验显着的原因吗?我如何知道导致 KS 检验零假设失败的原因?

红色样本量 = 1306 蓝色样本量 = 646,513

红色与蓝色样本

比较的 ECDF

2个回答

KS 是一项综合性测试。它没有识别差异的形式。

您可以确定 ECDF 差异最大的一个或多个地方,但这并不总是能告诉您太多。

您可以发现 ECDF 中的某些变化。这里有一些例子:

在此处输入图像描述

如果您查看帖子中的 ECDF,您会发现蓝色 cdf 在几乎整个范围内都低于红色(这意味着蓝色值通常更大*),尽管形状大致相似。

* 您还可以看到,在直方图中,最左边的条中的粉红色较高,但超过 300 条时,蓝色条通常要高一些。

所以无论如何,这就是我描述分布的主要差异的方式(总体形状有点相似,但蓝色类别中的值平均而言往往更大一些)。我不会将其描述为位置转移或规模转移。

让我担心的一件事是分布看起来非常离散。如果是这样,来自 Kolmogorov-Smirnov 检验的 p 值并不是特别有意义。

你的样本量是多少?

据我所知,(两个样本)KS 测试在告诉您两个分布有何不同方面没有多大帮助,因为它比较了位置和形状。如果您认为不同之处在于位置,请运行 Mann-Whitney。如果你认为它在于形状......那就更复杂了。有些人计算 GINI 来比较偏度。其他人建议运行引导程序,因此每个样本可以获得(例如)10,000 个偏度和峰度分数,然后您可以运行 t 检验来比较它们。不过,这对我来说总是有点奇怪。