在倾向得分匹配中,模型中是否也应该使用精确匹配中使用的变量?

机器算法验证 倾向评分 匹配 观察研究
2022-03-25 10:21:48

在倾向得分匹配中,我们可以精确匹配变量。例如,我们只能将男性与其他男性匹配。此外,可以在模型中指定变量。这是一些 SAS 代码,显示了使用倾向得分的 logit 进行 2:1 匹配(控制:治疗)的示例:

proc psmatch data = data_to_match;
  class gender;
  model treated = gender IQ;
  match method = greedy (k = 2) exact = (gender) stat = lps;
  output out (obs = match) = matched_data matchid = match_id;
run;

请注意在 EXACT= 选项和 MODEL 语句中如何使用性别。我假设 R 和其他统计软件包提供相同类型的选项。

有必要在两个地方都使用性别吗?

我可以从两个方面看到它:

  1. 是的,因为您获得了更准确的倾向得分。
  2. 不,因为您进行了完全匹配,这不应再影响结果,因此不应影响倾向得分。

SAS 支持网站上的示例包括两个职位的性别,这让我认为这是正确的规范。

2个回答

是的,我们可以/建议使用变量x我们在最终模型中用于匹配。匹配本身也可以有不同的步骤,包括精确和 PSM。在我们的分析中使用多个程序不需要使用变量x仅在其中一个步骤中。

使用具有匹配程序的某些协变量以及分析的其他步骤广泛地属于双重稳健估计的范围内;Stuart (2011) Matching methods for causal inference: A review and a look forward and Kang & Schafer (2007) Demystifying doublerobustness: A comparison of alternative strategy for estimating a population mean from different data are good place to see this more detail . 正如您正确识别的那样,使用x 再次可能有助于提高模型效率(例如,标准误差会更小)。即使对于精确匹配后跟 PS 计算也是如此,因为最终我们将获得逻辑模型的输出。由于不保证匹配过程是完美的,因此使用变量x几乎可以肯定,无论是匹配还是我们的最终模型都更有帮助(例如,防止错误指定 PSM 模型并减少最终估计标准的错误),但代价是我们模型的自由度略低。

与往常一样,双重/三重/四重/五重稳健方法或任何其他匹配方法(例如熵平衡)无法再次保护我们无法测量的混杂变量。

我总是求助于倾向得分重言式(Ho, Imai. King, & Stuart, 2007):应该评估倾向得分(模型)产生平衡样本的能力。尝试这两种方法,看看哪种方法能产生更好的平衡。当每个数据集都不同并且可能具有特殊性时,很难制定一般规则。

如果变量确实预测了治疗的选择,则忽略它会产生错误的倾向评分模型,因此会产生“不正确的”倾向评分,无论您是否在变量上完全匹配。这些不正确的倾向得分可能会在其他协变量上产生较差的平衡,即使精确匹配的变量是完全平衡的。