分层后权重的变量?

机器算法验证 民意调查 不回应 调查权重
2022-03-28 10:45:24

什么证明使用变量进行后分层是合理的?

我正在对一家非营利组织的成员进行一项调查,其中有 2500 份回复来自更大的样本甚至更大的人口。我有很多关于目标人群的变量,它们都是活跃的成分。在我读过的文献中,通常使用人口统计变量(例如年龄、性别和种族),但根据我对这些数据的经验,人口统计数据具有相对较高的数据质量错误,并且与无响应错误的相关性较弱,而行为数据(例如,捐赠历史)被可靠地记录下来,并且与无响应的关联性更好。

我假设人口统计数据很常见,因为许多调查都试图获得具有全国代表性的样本,而政府会发布该人口的人口统计信息。

因为我有它们,使用行为变量来代替或补充人口统计数据有什么问题吗?有没有一种实用的经验方法来选择变量?

如果建议是在人​​口统计数据之外使用行为变量,那么在使用许多变量计算权重时,我将如何检测或防止过度拟合?

1个回答

发现人口统计数据不如行为数据可靠的情况是一个有趣的转折。关于如何选择校准变量没有太多好的建议,除了它们应该与(非)响应过程和感兴趣的变量相关。广泛使用人口统计变量进行校准的原因是年龄、教育、种族和性别几乎影响任何社会科学的一切。但是,您可以通过将响应概率建模为您考虑的所有变量的函数来对数据进行非常简单的案例,如果您愿意,可以使用倾向模型。如果您可以证明捐赠在您的模型中比年龄更重要,那么没有人有理由反对您在校准中使用前者。

多少校准才足够的问题也没有得到太多解决。我可以在概念上将其视为提高准确性(对于给定的响应变量y和一组校准变量x, 是残差的方差ei=yixib) 和权重可变性的增加,因此设计效果1+CV2. 当您添加强度降低的预测变量时,精度增益正在减少;虽然 CV 会继续增加,所以在某些时候,可以说,两条曲线会相遇,为您提供正确数量的校准变量。这只是一个想法,但也许我应该写一篇关于它的论文:)