机器算法验证 - 测量不同空间数据聚合的同质性 - 吾爱随笔录

测量不同空间数据聚合的同质性

机器算法验证异方差空间的聚合相对分布

2022-04-01 13:03:30

我正在处理个人家庭的数据集，我使用几种不同的空间配置（从小到大）聚合成“区域”。

然后，这些区域由四个变量（两个分类变量，两个连续变量）表征。

我想看看这些不同的聚合对数据集有什么影响。特别是，我想估计当我从一种空间分辨率转移到另一种空间分辨率时，同质性的差异是什么。

解决这个问题的最佳方法是什么？我可以为此目的使用任何措施吗？

2个回答

您可以通过多种方式来表征同质性，因此您的问题可能会有很多答案。我所见过的最直观的展示方式之一是 Sergio Rey 在 Spatially Integrated Social Science ( PDF ) 一书中的一本书章节“区域收入不平等的空间分析”。Rey 在该章中采用的方法是将变化可视化为一个称为Theil's Index 的指标。特别是这是直观的，因为泰尔指数可以分解为“间”单位变化和“内”单位变化。随后，雷伊检查了泰尔指数成分在不同人口普查汇总之间随时间的变化。（作为说明，我发现 Rey 的 Theil 索引符号比维基百科页面更容易理解）

该指标仅适用于连续变量，因此分类变量需要采用不同的方法。本文提供了大量衡量种族隔离的常用指标（Massey 和 Denton，1988 年）。所有这些指标都可以与分类变量一起使用。我在犯罪学/社会学中遇到的是定性变异指数和多样性指数。

同质性定义：首先，让我们将同质性定义为同一地区的家庭在某些属性上彼此相似的程度。

MAUP 方法

解释所述问题：我们不确定同质性如何变化，因为我们降低了我们如何将家庭分组到区域的设计的空间分辨率。

对于这个问题@AndyW 的答案是可靠的。在地理领域，您的问题可以归类为可修改区域单位问题 ( MAUP )。您可以在此站点的索引中搜索“MAUP” 。

替代聚类方法

另一个问题：鉴于我们希望在聚合住户时最大化区域同质性，我们不确定应该如何对住户进行分组的最佳空间配置。

使用p-regions 聚类算法，您可以通过使用以下 2 个参数创建不同的家庭区域地图，直观地探索数据中不同的同质结构：

改变不同的属性以最大化区域同质性
改变建立区域组所需的家庭数量

其它你可能感兴趣的问题

上一篇使用同一数据集训练多个模型进行分类下一篇斯坦博偏差定义