知道人口样本(非随机)在人口统计方面存在偏差,纠正这个问题的最佳实践是什么?
也就是说,假设我可以将一组人口统计数据附加到样本中,并且我希望转换这个样本,使它们与这些结果在选择时的人口相似。稍后,这个调整后的样本将用于数学建模。
正如我所看到的,纠正某个方面非常简单。如果男性的代表不足50 %,则所有男性的权重为2。但是,如果要同时考虑多个变量怎么办?构建一个n维数组是要走的路吗?有更好的解决方案吗?
有现成的方法吗?一个R包?
知道人口样本(非随机)在人口统计方面存在偏差,纠正这个问题的最佳实践是什么?
也就是说,假设我可以将一组人口统计数据附加到样本中,并且我希望转换这个样本,使它们与这些结果在选择时的人口相似。稍后,这个调整后的样本将用于数学建模。
正如我所看到的,纠正某个方面非常简单。如果男性的代表不足50 %,则所有男性的权重为2。但是,如果要同时考虑多个变量怎么办?构建一个n维数组是要走的路吗?有更好的解决方案吗?
有现成的方法吗?一个R包?
正如蒂姆指出的那样,您应该使用调查权重。
在您的情况下,更具体地说,如果您要用于使样本与您的人口匹配的所有辅助变量(您的人口统计变量)都是您将使用的定性变量:
更一般地说,如果您有定性和定量的辅助变量,您可以使用校准方法。
Tim 还指出survey了R. 在那里您可以找到实现这些方法的三个函数:
postStratifyrakecalibrate包含加权功能的sampling软件包。R
calib需要注意的是,尽管这些加权方法最初是在概率抽样框架下开发的,但您的情况似乎并非如此(您将样本称为“非随机”)。只要加权调整中使用的辅助变量与您的结果变量和样本的选择机制相关,这些方法可能会减轻您估计中的一些潜在偏差。请参阅 Little 和 Vartivarian 的这篇论文,了解调查无响应中的类似讨论。