机器算法验证 - 如何同时检查样本是否在两个维度上具有代表性？ - 吾爱随笔录

如何同时检查样本是否在两个维度上具有代表性？

机器算法验证采样实验设计代表

2022-03-22 03:08:23

我正在尝试开发一种标准化方法来检查一组位置是否代表更大的一组。在这种特殊情况下，我试图专门研究它们的地理代表性。

一种方法是查看纬度和经度的两个样本 t 检验 * 独立*，但这显然忽略了值之间可能存在相关性的可能性。另一种选择是查看位置的分类分组（例如州、市场或网络的任何其他网格），并使用卡方检验。然而，这些都不是我认为的最佳选择。

是否有人熟悉可以同时基于两个维度检查样本偏差的测试？任何想法将不胜感激。

3个回答

您仍然可以进行卡方检验。没有说垃圾箱必须是一维的。按纬度段将地球划分为经度，并计算两个样本的每个箱中的案例数。相同的卡方检验适用。

Fasano 和 Franceschini 提出了 Kolmogorv-Smirnov 检验的多维版本，他们在皇家天文学会月刊225:155-170中显示，对于 2 维和 3 维数据检验更可取. 该论文可在此处免费获得。 $\chi^2$

事实上，我最近也有同样的问题。通过快速浏览已发表的文献，我意识到弗里德曼和拉夫斯基已经开发了一个通用测试。他们的方法是使用最小生成树，它是在维中连接云点的最小树，并从中计算分布为学生 t 的统计量。不幸的是，我不知道该测试的任何实现。 $n$

我所能建议的就是在平方中对变量进行归一化的技巧，应用逆 erf 函数来获得二元高斯，将它们平方并求和，这应该给你形式分发的样本，您可以使用您最喜欢的拟合优度检验对其进行检查。 $(0,1)\times(0,1)$ $\chi^2(2)$

更新：有一个 C 库来测试Ben Pfaff编写的多个维度的一致性。在Uniformity testing library部分，您可以下载源代码和文档。如果我理解得很好，这是 Smith & Jain 测试的一个实现，它是 Friedman & Rafsky 测试的改进，以防域的边界未定义。

其它你可能感兴趣的问题