在看到《纽约时报》关于同性伴侣居住地的图片时,似乎人口较少的县的变化最大(例如,比较北达科他州和俄亥俄州)。据推测,其中一些变化是由于样本量较小。对此进行调整的正确方法是什么,特别是考虑到这是来自抽样的人口普查数据?
我试着计算一个代表不同样本大小的比率的平均值得分。结果分数似乎被夸大了(-20 到 200),我想知道是不是因为我使用家庭数量作为样本量,而不是抽样家庭的数量。也就是说,人口普查仅对大约 1% 的家庭进行抽样(根据大约 300 万份 ACS 调查的报告),因此基线样本量可能应该是该县家庭数量的 1/100。这然后将分数减少 10 倍,并在此处显示值(仍然截断范围的高端)。
比例分布有点偏,我没有调整。据推测,一些偏差是真正的异常值,而不是系统变化。
NYT 数据存在于TSV 文件中,但缺少一些县名(改用 FIPS 代码)。此外,他们的数据经过调整以考虑错误编码的调查。
我本质上是在尝试使用与漏斗图相当的评分,这就是我的漏斗图在调整后的样本大小后的样子。
主要问题:在计算分数?潜在问题:这是标准化视觉比较比例的正确方法吗?