是否有“审查”空间点过程的模型?

机器算法验证 空间的 点过程
2022-03-30 17:50:50

这是我在分析包含固定时间间隔内城市中所有犯罪地点的数据集时遇到的问题,尽管它可能会出现在其他类型的点过程中。问题与没有准确观察到犯罪地点有关。他们位于警方在报告中写下的任何街道地址。在我的研究城市(可能几乎所有城市)中,景观中存在“天然屏障”,使这些“位置”本质上是不精确的。

例如,假设城市中心有一个大型自然保护区/公园。然后,自然保护区内发生的所有犯罪都被映射到一个地址 - 大概是自然保护区主要办公室的地址。这种“审查”会导致数据集中的人为聚类,并且很可能会使强度函数的估计和相关的协变量效应等产生偏差。我想这种“天然屏障”几乎存在于任何城市所以这个问题可能是由其他研究人员煽动的,所以我的问题是:是否有处理此类数据的已知方法?

目前,我已经使用普通的非齐次泊松过程模型分析了这个数据集,并得到了一些有趣的结果。我真的认为这些结果是“真实的”,基于之前的描述分析等等尽管观测数据的经验密度与在拟合模型下模拟的数据的经验密度相当接近,但“拟合优度”检验的结果。

以下是我考虑过的主要可能性(以及我决定反对它们的原因):

  • 从观察窗口中删除这些“自然障碍”,并将其视为网格上的点过程。我不想这样做,因为它从根本上改变了您正在估计的参数,并且有效地扫除了地毯下的“审查”问题。

  • 将数据分类为区域单位(例如基于人口普查的组),因为这种审查很少跨越人口普查边界。在某些情况下,这可能是一个很好的解决方案,但过度平滑是一个问题,更重要的是,我正在与之合作的城市太小(没有足够的人口普查单位)无法做到这一点。

  • 为此开发我自己的模型。我很确定这是我必须做的,但我想先检查一下我没有重新发明轮子。根据我自己的文献搜索,我不是,但这里的一些专家可能知道一些我不知道的事情。

2个回答

首先,支持问题的这种变化是一个活跃的研究领域,因此尽管通常将犯罪学中的分析单元视为离散的,但您当然可以将其视为连续领域。尽管我不像您那样对使用离散单位持负面看法,但我期待对该主题进行任何进一步的研究和进展。我可以看到使用较大的区域单位(如人口普查区组)的犹豫,但我对街道段或宗地单位等较小的单位没有太大的问题,这些单位在犯罪学中一直越来越流行。

从表面上看,问题似乎与边缘效应有关(正如您将问题标记为审查点过程),但它有点不同。边缘效应通常通过为观察点过程创建权重来处理,并且研究空间边缘附近的点的权重更高。你有一个你观察到的过程,但它的分类精度不符合你的想象。

这与支持问题的变化非常相似,解决它的尝试可以被描述为尝试分配点(建议)或通过使用不同的技术来考虑聚合中的不确定性。列出的 dasymetric 技术与评论中建议的排列/重新分配基数相同。请参阅我对模拟类似结果的问题的先前(两个)答案。您可以看到用于计算生态回归和分配估计值的 EM 示例(请参阅Tsutsumi 和 Murakami,2012 年- 诚然,边缘相当粗糙 - 正如您可以通过论文标题想象的那样)。您建议的模拟方法与Goovaerts (2008)非常相似建议在他的区域对点克里金模型中。

不过我会注意到,有些区域可以合法地被认为是应该从窗外剪掉的地方。例如,虽然技术上可行,但您可以假设公园中的湖泊是没有犯罪发生的区域。它还会根据犯罪类型而变化;入室盗窃(通常定义)只能发生在非公共区域,公园不能成为入室盗窃的受害者。同样,如果您想拟合交通事故或 DUI 模型,它们几乎仅限于实际道路。大多数当代犯罪预测的例子都忽略了这一点(并且仍然会在不可能发生犯罪的地区产生估计)。考虑到这些地方就是智能 dasymetric 制图的全部意义所在。

对不起,我相信没有简单的答案(我能做的最好的就是提供一长串文献,无论如何都不会直接回答你的问题)。


作为一个侧边栏,我并不完全反对这样表示现实,但你在评论中的例子显然不是连续场的度量。我能想到的唯一一个犯罪学家感兴趣的连续领域是(除非你是一个非常挑剔的物理学家)与天气有关。

但是,可能与往常一样,您如何表示变量应该部分地以您想要回答的实质性问题为指导。最终平滑的连续场方法混淆了局部和空间溢出效应,因此回答特定问题是不合理的。

例如,如果一个关心的公民来找我说,

最近有人提议重新规划一个街区外的一个街区,以允许出售酒类。虽然它不在我的社区,但我认为应该允许我的社区投票决定是否重新分区。如果酒吧不仅在街上,而且在一个街区之外对犯罪有影响,你能提供证据吗?

这个答案不能用条形图作为模型中的连续密度公式来解决。但这可以通过将街区视为分析单元并拟合空间模型以不仅考虑当地街道上的酒吧,而且考虑邻近街道上的酒吧。

审查的空间数据在宇宙学领域非常普遍。该问题通常通过创建一个具有平坦分布的随机点样本来解决,但它会收到与您尝试建模的数据相同的审查。然后,通过比较数据中看到的效果与随机(但删失)数据中看到的效果来调整您的分析。

经典的估计器是 Landy & Szalay 的估计器,用于分析真实空间(与傅立叶空间相反)中的空间聚类。转到此处查看文章 http://adsabs.harvard.edu/abs/1993ApJ...412...64L