机器算法验证 - 测量二维正方形中点分布的均匀性 - 吾爱随笔录

测量二维正方形中点分布的均匀性

机器算法验证分布可能性空间的点过程

2022-03-16 23:48:16

我有一个二维正方形，里面有一组点，比如 1000 个点。我需要一种方法来查看正方形内的点分布是否分散（或或多或少均匀分布），或者它们是否倾向于聚集在正方形内的某个位置。

我需要一种数学/统计（不是编程）方法来确定这一点。我用谷歌搜索，发现了诸如拟合优度、Kolmogorov 之类的东西，只是想知道是否还有其他方法可以实现这一目标。课堂论文需要这个。

输入：一个 2D 正方形和 1000 个点。输出：是/否（是=均匀分布，否=在某些地方聚集）。

3个回答

我认为@John 的 chi=square 测试的想法是一种方法。

你会想要二维的补丁，但你会想要使用单向卡方检验来测试它们；也就是说，单元格的预期值将是 $\frac{1000}{N}$ 其中 N 是单元格的数量。

但是不同数量的细胞可能会得出不同的结论。

另一种可能性是计算点之间的平均距离，然后将其与该平均值的模拟结果进行比较。这避免了任意数量的单元的问题。

编辑（更多平均距离）

有1000分，有 $\frac{1000*999}{2}$ 点之间的成对距离。这些都可以计算（例如，使用欧几里得距离）。这些距离可以平均。

然后，您可以生成 N（大量）个均匀分布的 1000 个点的集合。这 N 个集合中的每一个也具有点之间的平均距离。

将实际点的结果与模拟点的结果进行比较，以获得 p 值或只是查看它们落在哪里。

另一种可能性是卡方检验。将正方形划分为大小相等的非重叠补丁，并在均匀性假设下测试落入补丁的点的计数与它们的预期计数（如果补丁的大小都相同，则对补丁的期望是 total_points / total_patches），并应用卡方检验。对于 1000 点，9 个补丁应该足够了，但您可能希望根据数据的外观使用更多粒度。

为什么不使用 Kolmogorov-Smirnov 检验？这就是我会做的，特别是考虑到你的样本量足够大以弥补权力的不足。

或者，您可以进行一些模拟。它并不严格，但它提供了一些关于数据是否均匀分布的证据。

@whuber KS 的二维扩展是众所周知的（参见此处）。在这种情况下，我们正在调查这 1000 个绘制（坐标 (x,y)）是否可以从二维联合均匀分布中绘制出来——至少我是这样理解“均匀分布”的。@John 我可能笨拙地表达了自己（数学和英语都不是我的第一语言）。我的意思是，可以使用诸如 KS 之类的测试来计算确切的 p 值，而 p 值（或您称之为等效的任何东西）仅在进行模拟时趋于渐近。

其它你可能感兴趣的问题

上一篇Newey-West t 统计量下一篇使用 ggplot 或 ellipse 包绘制 95% CI 椭圆时得到不同的结果