空间或时空数据中的模式识别技术?

机器算法验证 r 机器学习 空间的 相似之处 时空
2022-03-30 10:12:34

我正在与天气预报员一起工作,并且可以访问历史气候数据。给定感兴趣区域的当前天气状况(即当前“地图”),我们希望尝试从过去的数据中找到最相似的“地图”。这个想法是通过从过去的数据中找到最好的模拟来尝试做出天气预报。

数据表示为点的常规 X x Y 网格(即矩阵),其中 X 是水平位置,Y 是垂直位置,矩阵中的第 (X,Y) 值表示响应变量 Z那个位置。此外,网格点是均匀分布的。例如,Z 可以是在每个网格点处测量的表面温度的量度。

我们通过将过去数据的搜索限制在测试日期的 +/- 15 天的窗口中来处理季节性影响。例如,如果我们想为 2013-06-19 的地图找到最佳模拟,我们只会考虑 2012-06-19 +/- 15 天、2011-06-19 +/- 15 天等的地图. 我们还将搜索限制在与测试日期同时进行的观察。例如,如果测试数据是在中午进行的观察,那么我们将只查看从同一时间获取的过去数据。

我有两个问题。

(1) 给定两个数据网格(或“地图”或矩阵),我怎样才能最好地计算它们之间的相似性?是否有考虑数据空间性质的方法?例如,点 (1,1) 将与附近的点 (1,2) 高度相关,等等。

我目前正在使用一个非常简单的距离度量,我只取两张地图的差异并找到 Frobenius 范数。过去产生最小值的地图是最接近测试条件的地图。

(2) 我是空间统计的新手,我正在寻找与我想做的事情相关的文献。我应该阅读什么来熟悉使用网格数据?有哪些资源可以学习空间或时空数据中的模式识别?

(我想提一下我在 R 中工作,所以我也欢迎软件包推荐!)

1个回答

我没有食谱答案,但这里有一些初步想法:

  • 我认为您对 Frobenius 范数的想法并非不合理,并且确实可以作为第一个安全的赌注。我认为您可以对矩阵距离使用很多不同的指标,但我会根据您的数据性质提出两个:

    1. 鉴于您在每张气候图中看到的是在空间中实现 2D高斯过程 ,因此继续为每张地图估计其超参数可能会很有趣。然后您可以将视为包含有关您的过程的基础动态的信息。比较向量将给出任何两个地图之间的相似性的想法。(你甚至可以在那之后将它们聚类。)对于初学者来说,作为平方指数和高斯噪声的总和的“标准”协方差函数应该可以做得很好。想一想您将如何“零中心”您的地图可能会很有趣。您可能需要查找克里金法θMAPθMAPθ更仔细一点(例如,了解简单克里金法和普通克里金法之间的区别,您会立即明白我所说的“零中心”您的地图是什么意思。(这取决于您是否看到您的地图来自相同的静止过程或不是)

    2. 您将所有地图实例视为来自同一前向模型的样本。您继续计算它们的特征图,然后比较您在特征图生成的投影分数中看到的差异。最简单的参考是...... Eigenfaces真的不是开玩笑,只是看文章,每次读“”,读“气候图”。一切都在那里。不要退出 PCA 步骤;你的协方差矩阵将是其中是你的样本大小而不是你的地图大小。N×NN

  • 克里金法:如果您从事空间统计工作,了解它至关重要。如果实际上是在扩展或与此主要技术并行完成的所有其他内容。了解变异函数显示的内容以及如何读取变异函数。高斯过程回归文献也可能对初读有所帮助;GPR 本质上是简单的克里金法,通常描述 GPR 的文本技术含量较低。有关此事的实际参考资料,我将直接参考 Peter Diggle 给出的说明:

Cressie (1991)仍然是空间统计模型和方法的标准参考。可能更容易获得的帐户(...)是:Rue 和 Held(2005 年)关于离散空间变化的介绍性章节,Diggle 和 Ribeiro(2007 年)关于地质统计学和Diggle(2003 年)关于点过程的介绍性章节。Waller 和 Gotway(2004 年)在介绍性层面涵盖了所有三个子领域,重点是公共卫生应用。Gelfand et al (2010)是一个编辑的汇编,涵盖了空间和时空模型和方法。

对于高斯过程的机器学习感知,我绝对参考Rasmussen 和 Williams 的机器学习的高斯过程。就我个人而言,我经常使用 Diggle & Ribeiro 和 Rasmussen & Williams 的书。Cressie 有很多关于这个主题的好论文。我不知道你的数学专业水平,但这是一个有趣的学科,我认为你可以相对容易地获得牵引力。当一切都说完了,你只需在点之间进行插值。祝你好运。

啊,当谈到软件时,我认为转到CRAN的TemporalSpaatioTemporal的 Task View 选项是最好的开始步骤。