可以计算高不答复率的人口普查的置信区间吗?

机器算法验证 置信区间 人口普查 不回应
2022-03-30 10:23:07

如果对整个人群(感兴趣的群体)进行问卷调查,并且回复率为 68%,那么问卷结果是否可以推广到整个人群(100%,包括 32% 的缺失)?即使这更像是人口普查问卷,是否可以将置信区间用于数据子集?

1个回答

一般来说,不,你不能这样做。

更多细节:问题在于 32% 可能与 68% 不同。如果您所知道的只是它们丢失了,那么您无法说出它们可能有什么不同。但这很复杂。对于任何缺失数据的问题,即使是进行人口普查的问题,关键的一件事是确定(如果可以的话)为什么会出现缺失数据。标准分类为:

完全随机缺失(MCAR)——也就是说,没有特别的原因导致它们缺失。也许咖啡洒在他们的记录上。或者可能是一个随机的计算机故障没有向他们发送调查问卷。

随机丢失(MAR:丢失的原因由您拥有的数据捕获。例如,众所周知,收入规模两端的人不太可能接听电话,这会在电话采访中提供丢失的数据. 但是如果你知道不回应的人的收入,那么数据可能是MAR。

不随机丢失(NMAR):以上都不是。

如果数据是 MCAR,那么您的 68% 结果可以“按原样”用作总体值的估计值。

如果数据是 MAR,那么有多种方法;现在最流行的可能是多重插补。

如果数据是 NMAR,则没有完美的解决方案,但我看到一些工作表明多重插补效果相当好,除非数据是“REALLY NMAR”(我看到了 Joe Schafer 的演讲,他是这方面的真正专家之一)。