我正在与天气预报员一起工作,并且可以访问历史气候数据。给定感兴趣区域的当前天气状况(即当前“地图”),我们希望尝试从过去的数据中找到最相似的“地图”。这个想法是通过从过去的数据中找到最好的模拟来尝试做出天气预报。
数据表示为点的常规 X x Y 网格(即矩阵),其中 X 是水平位置,Y 是垂直位置,矩阵中的第 (X,Y) 值表示响应变量 Z那个位置。此外,网格点是均匀分布的。例如,Z 可以是在每个网格点处测量的表面温度的量度。
我们通过将过去数据的搜索限制在测试日期的 +/- 15 天的窗口中来处理季节性影响。例如,如果我们想为 2013-06-19 的地图找到最佳模拟,我们只会考虑 2012-06-19 +/- 15 天、2011-06-19 +/- 15 天等的地图. 我们还将搜索限制在与测试日期同时进行的观察。例如,如果测试数据是在中午进行的观察,那么我们将只查看从同一时间获取的过去数据。
我有两个问题。
(1) 给定两个数据网格(或“地图”或矩阵),我怎样才能最好地计算它们之间的相似性?是否有考虑数据空间性质的方法?例如,点 (1,1) 将与附近的点 (1,2) 高度相关,等等。
我目前正在使用一个非常简单的距离度量,我只取两张地图的差异并找到 Frobenius 范数。过去产生最小值的地图是最接近测试条件的地图。
(2) 我是空间统计的新手,我正在寻找与我想做的事情相关的文献。我应该阅读什么来熟悉使用网格数据?有哪些资源可以学习空间或时空数据中的模式识别?
(我想提一下我在 R 中工作,所以我也欢迎软件包推荐!)