机器算法验证 - 为什么不能将 Kolmogorov-Smirnov 检验推广到 2 维或更多维？ - 吾爱随笔录

为什么不能将 Kolmogorov-Smirnov 检验推广到 2 维或更多维？

机器算法验证 kolmogorov-smirnov 测试双变量经验累积分布

2022-03-29 02:58:41

这个问题说明了一切。我已经读过不能将 KS 推广到等于或大于等于 2 的维度，并且像Numerical Recipes中这样的著名实现是完全错误的。你能解释一下为什么会这样吗？

1个回答

我认为引用相关段落的相关部分是合法的：

3. KS测试不能应用于二维或更多维度。天文学家通常拥有点分布在平面或更高维度上的数据集，而不是沿线分布。天文学文献中的几篇论文声称提出了二维 KS 测试，其中一篇在著名的数字食谱卷中被转载。但是，不能在二维或更高维度上应用基于 EDF 的测试（包括 KS、AD 和相关测试），因为没有唯一的方法来对点进行排序，以便可以计算明确定义的 EDF 之间的距离。可以基于某种排序过程构建统计量，然后计算两个数据集（或一个数据集和一条曲线）之间的上确界距离。但所得统计量的临界值并非无分布。

如前所述，这似乎太强大了。

1) 双变量分布函数，即是从到的映射。也就是说，该函数采用0 到 1 之间的单变量实数值。这些值——作为概率——肯定已经“有序”了——而这个（函数的值）是我们需要对基于 ECDF 的测试进行比较的东西. 类似地，ecdf,在双变量情况下得到了很好的定义。 $F(x_1,x_2) = P(X_1\leq x_1,X_2\leq x_2)$ $\mathbb{R}^2$ $[0,1]$ $\hat F$

我认为没有必要尝试将其转换为文本所暗示的单变量组合变量的某些函数。您只需计算和并计算差值。 $F$ $\hat F$

2）但是，关于它是否免费分发的问题，他们有一点：

a) 显然，这样的测试统计量不会因边距变换的变化而改变，也就是说，如果构建为双变量独立制服的测试，，那么它同样有效以及对独立的测试，其中。从这个意义上说，它是无分配的（我们可以说“无保证金”）。 $\mathbf{U}=(U_1,U_2)$ $(X_1,X_2)$ $U_i=F_i(X_i)$

b) 然而，在更广泛的意义上，有一个更普遍的基本观点，即 KS 统计数据的幼稚版本（例如我刚刚描述的）不是更普遍地免费分发；我们不能简单地任意。 $U$ $X^* = \mathbf{g}(\mathbf{U})$

在我回答的早期版本中，我说：

没有困难，没有问题

那是错误的。正如刚才提到的，如果不仅仅是双变量独立制服的边距发生变化，那么确实存在问题。然而，在许多论文中以多种方式考虑了这些困难，这些论文产生了不存在该问题的 Kolmogorov-Smirnov 统计的双变量/多变量版本。

一旦时间允许，我可能会回来添加其中一些参考资料并讨论它们如何工作。

其它你可能感兴趣的问题

上一篇log(p(x,y)) 如何对逐点互信息进行归一化？下一篇测试两个回归系数是否显着不同（理想情况下在 R 中）