我如何使用倾向得分来调整调查无响应偏差?

机器算法验证 回归 倾向评分 加权平均数 调查权重 有限种群
2022-03-26 18:31:04

假设我使用倾向得分来估计目标人群中每个成员对调查做出反应的概率。我很难找到关于如何使用倾向得分来调整感兴趣的连续结果的清晰解释,y. 我目前的理解是我可以计算加权平均值y其中权重是倒置的倾向得分。这是通常的做法吗?或者是否应该在回归模型中以某种方式利用倾向得分来估计总体y¯?

1个回答

如果你有一个概率样本

对于概率样本,您知道每个样本成员的抽样选择概率(即他们被要求参加调查的概率),其倒数是基本调查权重。如果您知道样本响应和非响应成员的权重,那么您通常会对样本响应成员的权重应用非响应调整。一种常见的方法是响应倾向类别调整,您可以根据估计的响应倾向将样本分为三组:低、中和高。对于每个组,您可以通过乘以因子来调整权重N_hat_full / N_hat_responding,其中N_hat_full表示该组中完整样本的采样权重之和,N_hat_responding表示该组中样本的响应成员的抽样权重之和。

您所指的方法(使用逆倾向得分作为权重)是逆倾向得分 (IPS) 加权,通常不用作概率调查的无响应调整方法。

如果你有一个非概率样本

在来自非概率样本的数据的背景下,反向倾向得分加权 (IPSW) 方法非常常用来弥补您不知道抽样概率这一事实,因为您没有对总体进行控制样本. Lee 和 Valliant (2009) 概述并(我相信)首先提出了它在该领域的用途;2018 年皮尤研究报告讨论了估计倾向得分的不同选项,最近一项很好的研究讨论了这种非概率样本的方法。

简而言之,该过程的工作原理如下。

  1. 来自选择加入调查响应的给定样本的数据与来自合成总体的数据集(可以使用概率样本中的数据创建)相结合。您调查的观察结果叠加在合成总体的观察结果之上。
  2. 训练模型以预测堆叠数据集中的每条记录,该记录是来自选择加入样本还是来自参考数据集。
  3. 对于选择加入调查的每个受访者,经过训练的模型用于生成概率预测,以判断该受访者在堆叠数据集中的行是否来自合成人群而不是选择加入样本。
  4. 每个受访者的逆倾向权重计算为 w_i = p_i/(1−p_i),其中 p_i 表示受访者的记录来自参考数据集而不是选择加入样本的预测概率。
  5. (可选)重新调整权重以匹配总人口规模

然后使用权重,就好像它们是简单的抽样权重一样:总体总数计算为 SUM(WEIGHT * X);平均值通常计算为 SUM(WEIGHT * X) / SUM(WEIGHT)。

参考