对人口统计调查问题没有答复怎么办?

数据挖掘 数据 数据清理 交叉验证
2022-03-12 20:14:03

谁能指出一些关于如何处理人口普查类型数据的想法,其中至少有一些被调查的人没有自我识别种族/民族、性别或其他人口统计数据?

在检查不同社区多样性的研究(和数据集)中,我看到了广泛的策略。有些人只是删除一个人拒绝指定种族/民族或性别的记录。有些包括它们并创建一个“未知”类别。例如,如果看种族/民族,一些研究只是表明他们假设所有无反应者都是白人。

这些解决方案似乎都不完美。还有其他人吗?如果你删除那些拒绝指定性别的人的回复,你是否可能只是删除了一部分不认同男性或女性的人群?

许多调查现在允许参与者选择“拒绝说明”性别或“拒绝说明”种族/民族或类似选项,或者根本不回答问题,是否有任何正在形成的共识?收集完数据后怎么办?这取决于被研究的人群吗?

1个回答

这取决于你想对数据做什么。一种常见的方法是将不响应视为“缺失”,意思是你放弃这个观察。这可能会导致数据出现偏差,例如,如果某个组比其他组更频繁地拒绝回答问题。为了解决这个问题,一些人使用事后加权数据。如果您知道某个群体在整个人口中出现的频率,您就可以这样做。因此,如果您发现 A 组在您的数据中的代表性不足,您可以为 A 组中的每个观察值分配更高的权重。您可以使用此权重来调整描述性统计或回归结果。该技术称为概率加权:https ://en.m.wikipedia.org/wiki/Inverse_probability_weighting 。

请注意,这种方法存在局限性。如果您有足够的数据,您可以合理地声称事后加权对于诸如收入之类的事情是可以的,假设(重要!)说可用数据中的低收入阶层代表了低收入家庭/人的整个人口。这在其他情况下不一定成立,例如,如果您研究某些生活方式左右。

如果人们羞于回答某些问题,也可能会出现不响应的情况。在这种情况下,具有未知数据生成过程的数据存在系统偏差,因此或多或少不可能治愈这个问题/偏差。

另一种选择是插补,这意味着您估计某人会回答什么(例如通常适用于收入)。但是,在这种情况下,您永远无法确定自己做对了。因此,插补通常是非常成问题的。