机器算法验证 - “不规则空间数据”是什么意思？ - 吾爱随笔录

“不规则空间数据”是什么意思？

机器算法验证数据挖掘空间的社交网络

2022-04-05 18:34:19

当我阅读 Maarten Jansen、Guy P. Nason 和 BW Silverman 撰写的论文“ Multiscale methods for data on graphs andregular multidimensional situation ”时，我发现了“不规则空间数据”一词。当我用谷歌搜索它时，我发现尽管它的“广泛”使用（在特定领域）没有明确的定义。

有人可以向我解释这个概念吗？

4个回答

许多技术假设数据是按规则间隔进行采样的。您可以计算高速公路上每个英里标记附近有多少垃圾，或者在规则间隔的网格（北 100、200、300 米和某些地标东 100、200、300 米）上的森林中采样点. 这也发生在时间上——我的脑电图机每毫秒记录一个数据点。我们将相邻样本之间的间隔称为采样周期。

但是，很多数据没有或不能以固定的采样周期进行采样。也许地形不允许我们将气象站放置在相距 50 英里的地方。我们经常研究人们的身高和体重，但这些只是在医生预约时进行机会主义测量（通常不完全相隔 1 年）。这些数据是不定期采样的。

您链接的论文描述了处理后一种数据的方法，其中采样周期不是恒定的。一种可能的方法是将数据插入到网格中，然后使用用于网格数据的技术。该论文认为，虽然这在 1 维中有效，但在多维中不太令人满意，并且基于提升的方法效果更好。

Matt (+1) 和其他人的好答案。只是为了有一张照片把信息（视觉上）带回家。在下图中，假设正方形代表采样点，灰色框遵循明显的规则间隔设计；红框只是不规则间隔的随机样本。

两种设计都有其优点和缺点。不要将不规则的设计视为“更糟”。例如，某些自适应采样设计对密度估计非常有帮助，但严格来说是非常不规则的。那是因为您主要关心高波动性的区域。数值积分方案是一个标准示例。一方面，梯形规则（以及通常所有的牛顿-科特斯公式）基于等距采样技术。另一方面，蒙特卡洛积分方法可能是一个非常不规则的样本，有时可能会偏离均匀和等间距（例如重要性采样）。

这通常意味着点的位置没有明确的底层结构。即它不是一个矩形网格或任何可以紧凑表示的具有清晰结构的东西。

想象一下，您在一个国家/地区拥有气象站，并且您正在监测温度。这些气象站很可能不在任何明确定义的网格上。它们是不规则间隔的，因此如果想要进行任何空间推断，需要创建一些空间图/网格，通常由三角形组成。然后可以根据已知气象站的值进行推断和插值。

这在很大程度上取决于您选择的网格/图形，因此有不同的技术来生成它们。

这是一种英国式的说法，即您的数据不是均匀分布的。假设您测量道路上的温度，并每隔 1 英里获得一次观测值。这将是规则间隔的数据。与在每个加油站进行测量相反，当然，加油站的间距不会相等。

其它你可能感兴趣的问题

上一篇对于最小二乘估计，使用估计器有什么区别β^=X吨是β^=XTY对比β^= (X吨X)− 1X吨是β^=(XTX)−1XTY 下一篇如何从均匀分布的数字中获得“V 形”分布的随机数？