Moran's I 中权函数的选择

机器算法验证 聚类 自相关 空间的 尺度不变性
2022-03-28 22:38:56

我正在对空间分布的观察集合进行自相关分析。为了执行我的分析,我使用了 Moran 的 I 统计量。

我的问题是:(1)使用不同的加权函数有什么影响和好处,即,和(2)有没有(也许非正式)回答在地理统计文献中最常使用哪些可能的加权函数(以及出于什么目的)?d1d2exp(d)

至于我为什么关心:我正在尝试遵循Fauchald 2000的一些方法,探索我的数据集中是否存在不同结构规模的聚类。我正在绘制 Moran 的 I 与聚合量表。有趣的是,当使用加权函数(具有不连续点)进行计算时,得到的相关曲线显示出非常不同的定性行为。我很难理解为什么这是真的——有没有人有这方面的经验,可以给我一些参考资料?d1d2d1

2个回答

Moran's I 统计量用于探索特定类型的空间聚类:高值是否位于其他高值附近,以及低值是否位于其他低值附近。

然后,诀窍是第一要了解您所说的接近度是什么意思,第二要以数学方式对此进行公式化。这种接近的想法将取决于您正在使用的观察类型(属性)以及您想到的问题类型。

例如,对于人类而言,接近可能意味着聊天所需的距离。因此,如果您想知道高收入人群是否喜欢在您的鸡尾酒会上与其他高收入人群聊天,您可以使用二进制权重来表示接近度,其中 1 定义为 2 个人之间的距离在 3 英尺以内。要查看房价是否在空间上相关,您可以将邻近度定义为 2 栋房子是邻居,或者两栋房子在同一个街区,或者两栋房子在彼此的视线范围内等等。

基本上,您需要一个接近假设,该假设基于您之前的一些常识性想法或专家知识,即为什么彼此靠近的 2 个对象比彼此远离的 2 个对象更相关。

Moran 的 I 可以被视为对您的假设的检验,即您的邻近概念如何在景观中彼此相邻地构建高值。

尽管不在地质统计学领域内,但对于问题 #2,我会随便说在我的领域(犯罪学)中最常用的加权函数是二元加权方案。尽管我很少看到一个好的理论或经验论据来使用一种加权方案而不是另一种(或者如何在二进制加权方案中定义邻居)。可能只是因为历史偏好和便利性,通常使用这种方案。

在构建空间权重的数据驱动方法和推导空间权重的基于理论的方法之间应该有所区别。您目前正在执行前者,并且在这种方法中,您隐含地将空间权重的估计视为测量误差问题,因此应该使用技术来验证您的测量(由于空间权重的内生性,这相当复杂) . 使用基于数据中一些机会变化的加权方案并在随后的因果模型中使用它与推理和数据窥探相关的其他谬误同义。不幸的是,除了自相关的程度之外,我没有以任何有意义的方式验证的空间权重模型的良好参考,坦率地说,这是 对经验论点的说服力并非如此。空间依赖性可以是因果过程的结果(即空间中一个点的值影响空间中另一点的值),也可以是其他测量误差的结果(即数据的测量支持不匹配)产生这些现象的过程的支持)。

这与基于理论的空间权重构建(或 Luc Anselin 的术语中的“模型驱动”)相反,其中一个先验地指定权重矩阵以估计模型。我没有阅读您引用的 Fauchald 论文,但在摘要中显示,它们基于一些最佳觅食策略对观察到的模式进行了合理的理论解释。

对于阅读,我建议 Luc Anselin 的书《空间计量经济学:方法和模型》 (1988 年),尤其是第 2 章和第 3 章将是最有趣的。另外,与我观点相似的另一部作品(尽管它可能不那么感兴趣)是 Gary King 的一篇散文,“为什么不应该考虑上下文”。我还建议另一篇论文,因为它们似乎与您的目标相似,并根据变异函数估计定义了晶格系统的权重(Negreiros,2010)。