“不规则空间数据”是什么意思?

机器算法验证 数据挖掘 空间的 社交网络
2022-04-05 18:34:19

当我阅读 Maarten Jansen、Guy P. Nason 和 BW Silverman 撰写的论文“ Multiscale methods for data on graphs andregular multidimensional situation ”时,我发现了“不规则空间数据”一词。当我用谷歌搜索它时,我发现尽管它的“广泛”使用(在特定领域)没有明确的定义。

有人可以向我解释这个概念吗?

4个回答

许多技术假设数据是按规则间隔进行采样的。您可以计算高速公路上每个英里标记附近有多少垃圾,或者在规则间隔的网格(北 100、200、300 米和某些地标东 100、200、300 米)上的森林中采样点. 这也发生在时间上——我的脑电图机每毫秒记录一个数据点。我们将相邻样本之间的间隔称为采样周期。

但是,很多数据没有或不能以固定的采样周期进行采样。也许地形不允许我们将气象站放置在相距 50 英里的地方。我们经常研究人们的身高和体重,但这些只是在医生预约时进行机会主义测量(通常不完全相隔 1 年)。这些数据是不定期采样的。

您链接的论文描述了处理后一种数据的方法,其中采样周期不是恒定的。一种可能的方法是将数据插入到网格中,然后使用用于网格数据的技术。该论文认为,虽然这在 1 维中有效,但在多维中不太令人满意,并且基于提升的方法效果更好。

Matt (+1) 和其他人的好答案。只是为了有一张照片把信息(视觉上)带回家。在下图中,假设正方形代表采样点,灰色框遵循明显的规则间隔设计;红框只是不规则间隔的随机样本。

在此处输入图像描述

两种设计都有其优点和缺点。不要将不规则的设计视为“更糟”。例如,某些自适应采样设计对密度估计非常有帮助,但严格来说是非常不规则的。那是因为您主要关心高波动性的区域。数值积分方案是一个标准示例。一方面,梯形规则(以及通常所有的牛顿-科特斯公式)基于等距采样技术。另一方面,蒙特卡洛积分方法可能是一个非常不规则的样本,有时可能会偏离均匀和等间距(例如重要性采样)。

这通常意味着点的位置没有明确的底层结构。即它不是一个矩形网格或任何可以紧凑表示的具有清晰结构的东西。

想象一下,您在一个国家/地区拥有气象站,并且您正在监测温度。这些气象站很可能不在任何明确定义的网格上。它们是不规则间隔的,因此如果想要进行任何空间推断,需要创建一些空间图/网格,通常由三角形组成。然后可以根据已知气象站的值进行推断和插值。

这在很大程度上取决于您选择的网格/图形,因此有不同的技术来生成它们。

这是一种英国式的说法,即您的数据不是均匀分布的。假设您测量道路上的温度,并每隔 1 英里获得一次观测值。这将是规则间隔的数据。与在每个加油站进行测量相反,当然,加油站的间距不会相等。