如何使用 1% 的大规模微观数据样本和小区域规模的汇总统计数据模拟小区域的人口普查微观数据?

机器算法验证 分布 采样 模拟 空间的 人口普查
2022-03-14 11:21:24

我想在小范围的地理聚合(澳大利亚人口普查收集区)上进行个人层面的多元分析。显然,出于隐私原因,在这些小规模聚合中无法进行人口普查,因此我正在研究其他替代方案。几乎所有感兴趣的变量都是分类的。我有两个数据集可供使用:

  • 1% 的人口普查样本可用于更高水平的空间聚合(人口约为 190,000 且人口统计空间分布广泛的地区)。

  • 我在小区域级别感兴趣的变量的频率表(500 个小区域,平均 pop = 385,sd = 319,中位数 = 355)。

如何使用这两个数据集来模拟尽可能接近小区域实际人口的小区域级别的人口分布?

我很欣赏这样做的常规方法;如果是这样,指向教科书或相关期刊文章的指针将不胜感激。

3个回答

Dasymetric 映射主要侧重于将人口估计值插入到比当前传播的数据中可用的更小的区域(有关该主题的大量有用参考资料,请参阅此问题)。通常这是通过简单地确定明显没有人口存在的区域(基于土地特征),然后重新估计人口密度(忽略这些区域)来完成的。一个例子可能是城市中有一片水域,另一个例子可能是如果您确定不能有任何居住人口的工业地块。最近的 dasymetric 制图方法将其他辅助数据纳入概率框架以分配人口估计(Kyriakidis,2004;Liu 等人,2008;Lin 等人,2011;Zhang & Qiu,2011)。

现在很容易看出与您手头的问题的关系。您需要小区域的人口估计。但是,还应该清楚它如何可能达不到您的目标。您不仅需要人口数据,还需要这些人口的特征。用于描述这种情况的术语之一是支持问题的变化(Cressie,1996;Gotway & Young,2002)。借用地质统计学文献,在这些文献中,人们试图从点样本中预测大范围内的某个特征,最近的工作试图将区域数据内插到不同的目标区域。Pierre Goovaerts的大部分工作都集中在这种区域对点克里金法上,这是《地理分析》杂志上最近发表的一篇文章有几个应用不同主题材料的方法示例(Haining et al., 2010),我最喜欢的应用之一是在这篇文章中(Young et al., 2009)。

不过,我所引用的内容几乎不应被视为解决问题的灵丹妙药。最终,许多与生态推断和聚合偏差相同的问题也适用于区域插值的目标。很可能很多微观数据之间的关系在聚合过程中根本就丢失了,这种插值技术将无法恢复它们。此外,根据经验对数据进行插值的过程(通过从总体数据中估计变差函数)通常充满了临时步骤,这应该使该过程有问题(Goovaerts,2008 年)。

不幸的是,我将其发布在一个单独的答案中,因为生态推理文献和关于 dasymetric 制图和区域对点克里金法的文献不重叠。尽管有关生态推理的文献对这些技术有很多影响。不仅插值技术受到聚合偏差的影响,而且智能 dasymetric 技术(使用聚合数据拟合模型来预测较小区域)也可能受到聚合偏差的怀疑。对发生聚合偏差的情况的了解应该对区域插值和 dasymetric 映射将在很大程度上失败的情况具有启发性(特别是在识别分类级别的不同变量之间的相关性方面)。


引文

Gary King 的工作,特别是他的书“生态推理问题的解决方案”(前两章可在此处获得),将会很有趣(以及他用于生态推理的随附软件)。King 在他的书中展示了如何通过检查基于可用聚合数据的较低级别分组的潜在界限来改进使用聚合数据的回归模型的估计。您的数据主要是分类分组这一事实使它们适合这种技术。(虽然不要被愚弄了,它并不是一个综合性的解决方案,因为你可能希望得到标题!)存在更多当前的工作,但 King 的书是 IMO 的最佳起点。

另一种可能性是仅表示数据本身的潜在界限(在地图或图表中)。因此,例如,您可能报告了总体级别的性别分布(例如 5,000 名男性和 5,000 名女性),并且您知道该总体级别包含 9,000 人和 1,000 人的 2 个不同的小区域单位。然后,您可以将其表示为表格的列联表;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

尽管您在单元格中没有较低级别聚合的信息,但我们可以从边际总数中为每个单元格构造最小或最大潜在值。因此,在此示例中,Men X Unit1单元格只能取 4,000 到 5,000 之间的值(任何时候边缘分布越不均匀,单元格可能取值的间隔越小)。显然,获得表格的边界比我预期的要困难(Dobra & Fienberg, 2000),但似乎eiPackR 的库中提供了一个函数(Lau et al., 2007, p. 43)。

使用聚合级别数据进行多变量分析是困难的,因为此类数据不可避免地会出现聚合偏差。(简而言之,我只想描述聚合偏差,因为许多不同的个体水平数据生成过程可能导致聚合水平关联) 美国社会学评论中的一系列文章在 1970 年代是我最喜欢的一些主题参考资料(Firebaugh,1978;Hammond,1973;Hannan & Burstein,1974),尽管关于该主题的规范资料可能是(Fotheringham & Wong,1991;Oppenshaw,1984;Robinson,1950) . 我确实认为,表示数据可能采用的潜在界限可能会令人激动,尽管您确实受到聚合数据在进行多变量分析方面的限制。但这并不能阻止任何人在社会科学领域这样做(无论好坏!)

请注意,(正如查理在评论中所说)King 的“解决方案”受到了相当多的批评(Anselin & Cho, 2002; Freedman et al., 1998)。尽管这些批评并不是针对 King 方法的数学问题,但更多的是关于 King 方法仍然无法解释聚合偏差的情况(我同意 Freedman 和 Anselin 的观点,即数据为仍然怀疑社会科学比符合金假设的科学要普遍得多)。这就是为什么我建议只检查界限的部分原因(这并没有错),但是从这些数据中推断出个人层面的相关性需要更多的信念飞跃,这在大多数情况下最终是不合理的。


引文

我不确定文献中是否存在明确的答案,因为谷歌搜索基本上提供了三个关于多元小面积估计的可用参考。Pfeffermann (2002)在论文的第 4 部分讨论了离散响应变量,但这些将是单变量模型。当然,使用分层贝叶斯方法(Rao 2003, Ch. 10),你可以创造任何奇迹,但如果你最终发现自己只是复制你的先验(因为你的数据太少),这将是一个可怕的模拟练习的结果。此外,Rao 只处理连续变量。

我想最大的挑战是将协方差矩阵分解为小区域之间和小区域内的分量。使用 1% 的样本,您将只有 3 个来自 SAE 的观察结果,因此可能很难获得组件内的稳定估计。

如果我站在你的立场上,我会尝试 Pfeffermann 模型的多元扩展,它具有小区域的多元随机效应。如果没有基于设计的工作,您可能确实会为此得到一个分层贝叶斯模型。

更新(解决安迪对此答案的评论):小面积估计的引导方法(Lahiri 2003)专门从研究中重建了一个合理的人口。虽然引导练习的重点是估计小区域估计的方差,但程序应该与发布的问题相关且相关。