什么证明使用变量进行后分层是合理的?
我正在对一家非营利组织的成员进行一项调查,其中有 2500 份回复来自更大的样本甚至更大的人口。我有很多关于目标人群的变量,它们都是活跃的成分。在我读过的文献中,通常使用人口统计变量(例如年龄、性别和种族),但根据我对这些数据的经验,人口统计数据具有相对较高的数据质量错误,并且与无响应错误的相关性较弱,而行为数据(例如,捐赠历史)被可靠地记录下来,并且与无响应的关联性更好。
我假设人口统计数据很常见,因为许多调查都试图获得具有全国代表性的样本,而政府会发布该人口的人口统计信息。
因为我有它们,使用行为变量来代替或补充人口统计数据有什么问题吗?有没有一种实用的经验方法来选择变量?
如果建议是在人口统计数据之外使用行为变量,那么在使用许多变量计算权重时,我将如何检测或防止过度拟合?