机器算法验证 - 如何标准化美国人口普查数据中的比例 - 吾爱随笔录

在看到《纽约时报》关于同性伴侣居住地的图片时，似乎人口较少的县的变化最大（例如，比较北达科他州和俄亥俄州）。据推测，其中一些变化是由于样本量较小。对此进行调整的正确方法是什么，特别是考虑到这是来自抽样的人口普查数据？

在此处输入图像描述

我试着计算一个 $z$ 代表不同样本大小的比率的平均值得分。结果分数似乎被夸大了（-20 到 200），我想知道是不是因为我使用家庭数量作为样本量，而不是抽样家庭的数量。也就是说，人口普查仅对大约 1% 的家庭进行抽样（根据大约 300 万份 ACS 调查的报告），因此基线样本量可能应该是该县家庭数量的 1/100。这 $z$ 然后将分数减少 10 倍，并在此处显示值（仍然截断范围的高端）。

在此处输入图像描述

比例分布有点偏，我没有调整。据推测，一些偏差是真正的异常值，而不是系统变化。

在此处输入图像描述

NYT 数据存在于TSV 文件中，但缺少一些县名（改用 FIPS 代码）。此外，他们的数据经过调整以考虑错误编码的调查。

我本质上是在尝试使用与漏斗图相当的评分，这就是我的漏斗图在调整后的样本大小后的样子。

在此处输入图像描述

主要问题：在计算 $z$ 分数？潜在问题：这是标准化视觉比较比例的正确方法吗？