如何标准化美国人口普查数据中的比例

机器算法验证 数据可视化 人口普查 漏斗图 z分数
2022-04-03 16:42:33

在看到《纽约时报》关于同性伴侣居住地的图片时,似乎人口较少的县的变化最大(例如,比较北达科他州和俄亥俄州)。据推测,其中一些变化是由于样本量较小。对此进行调整的正确方法是什么,特别是考虑到这是来自抽样的人口普查数据?

在此处输入图像描述

我试着计算一个z代表不同样本大小的比率的平均值得分结果分数似乎被夸大了(-20 到 200),我想知道是不是因为我使用家庭数量作为样本量,而不是抽样家庭的数量。也就是说,人口普查仅对大约 1% 的家庭进行抽样(根据大约 300 万份 ACS 调查的报告),因此基线样本量可能应该是该县家庭数量的 1/100。z然后将分数减少 10 倍,并在此处显示值(仍然截断范围的高端)。

在此处输入图像描述

比例分布有点偏,我没有调整。据推测,一些偏差是真正的异常值,而不是系统变化。

在此处输入图像描述

NYT 数据存在于TSV 文件中,但缺少一些县名(改用 FIPS 代码)。此外,他们的数据经过调整以考虑错误编码的调查。

我本质上是在尝试使用与漏斗图相当的评分,这就是我的漏斗图在调整后的样本大小后的样子。

在此处输入图像描述

主要问题:在计算z分数?潜在问题:这是标准化视觉比较比例的正确方法吗?

1个回答

在与当地统计学家交谈并没有看到任何其他答案后,我可以提供一些答案。如果评论员认为这个问题太狭窄,我也很乐意删除这个问题。

受访者的数量是分数计算的正确样本量。我使用的是 1%,从那以后我了解到 1% 的 2/3 是对响应率的更好估计。我可以从人口普查局获得州级样本量。我还验证了数据来自美国社区调查,而不是一般人口普查,后者不询问关系问题。

还建议在计算总平均值时排除远异常值,因为这些位置与县的一般人口完全不同。

另一种处理由于小样本引起的变化的技术是小面积估计,它可以被认为是一种加权平滑器。

虽然我忘记了来源,但我现在意识到我对这条探索路线的启发是霍华德·韦纳( Howard Wainer)关于县癌症发病率和学校测试结果的类似问题的讨论,收集在“描绘不确定的世界”中