机器算法验证 - 为什么KS测试给出了显着的结果？ - 吾爱随笔录

为什么KS测试给出了显着的结果？

机器算法验证 kolmogorov-smirnov 测试

2022-03-07 15:50:48

我有两个样本，我想知道它们的分布是否显着不同。我进行了 Kolmogorov-Smirnov 检验，该检验拒绝了原假设 (D=0.0983, p=2.14e-11)，使我相信样本确实来自不同的分布。问题是，我如何确定这些样本有什么显着不同？分布的均值是否不同？歪斜？别的东西？相互检查直方图不会立即显示差异。当然，红色样本的值比蓝色样本略低，但这就是导致 KS 检验显着的原因吗？我如何知道导致 KS 检验零假设失败的原因？

红色样本量 = 1306 蓝色样本量 = 646,513

红色与蓝色样本

比较的 ECDF

2个回答

KS 是一项综合性测试。它没有识别差异的形式。

您可以确定 ECDF 差异最大的一个或多个地方，但这并不总是能告诉您太多。

您可以发现 ECDF 中的某些变化。这里有一些例子：

在此处输入图像描述

如果您查看帖子中的 ECDF，您会发现蓝色 cdf 在几乎整个范围内都低于红色（这意味着蓝色值通常更大*），尽管形状大致相似。

* 您还可以看到，在直方图中，最左边的条中的粉红色较高，但超过 300 条时，蓝色条通常要高一些。

所以无论如何，这就是我描述分布的主要差异的方式（总体形状有点相似，但蓝色类别中的值平均而言往往更大一些）。我不会将其描述为位置转移或规模转移。

让我担心的一件事是分布看起来非常离散。如果是这样，来自 Kolmogorov-Smirnov 检验的 p 值并不是特别有意义。

你的样本量是多少？

据我所知，（两个样本）KS 测试在告诉您两个分布有何不同方面没有多大帮助，因为它比较了位置和形状。如果您认为不同之处在于位置，请运行 Mann-Whitney。如果你认为它在于形状......那就更复杂了。有些人计算 GINI 来比较偏度。其他人建议运行引导程序，因此每个样本可以获得（例如）10,000 个偏度和峰度分数，然后您可以运行 t 检验来比较它们。不过，这对我来说总是有点奇怪。

其它你可能感兴趣的问题

上一篇为什么在MAP估计中称为“模式”？下一篇为什么 KL-Divergence 在其公式中使用“ln”？