在估计治疗效果时,一种常用的方法是匹配。当然有几种用于匹配的技术,但更流行的技术之一是倾向得分匹配。
然而,我有时会偶然发现有人说使用倾向得分进行匹配是有争议的,并且批评者表示其他程序可能更可取。所以我只是想知道是否有人熟悉这种批评,也许可以解释它或提供参考。
简而言之,我要问的问题是:为什么使用倾向得分进行匹配会有问题?
在估计治疗效果时,一种常用的方法是匹配。当然有几种用于匹配的技术,但更流行的技术之一是倾向得分匹配。
然而,我有时会偶然发现有人说使用倾向得分进行匹配是有争议的,并且批评者表示其他程序可能更可取。所以我只是想知道是否有人熟悉这种批评,也许可以解释它或提供参考。
简而言之,我要问的问题是:为什么使用倾向得分进行匹配会有问题?
确实,不仅有其他方法进行匹配,而且还有仅使用治疗和潜在混杂因素(例如,加权,有或没有倾向得分)来调整混杂因素的方法。在这里,我将仅提及倾向得分 (PS) 匹配的记录问题。一般来说,匹配可能是一个有问题的方法,因为它会丢弃单位,可以改变目标估计,并且不平滑,使得推理具有挑战性。使用倾向得分进行匹配会增加额外的问题。
对倾向得分匹配最著名的批评来自 King 和 Nielsen(2019 年)。他们有三个主要论点:1)倾向得分匹配试图模仿随机实验而不是块随机实验,后者产生更好的精度和控制混杂,2)倾向得分匹配导致“倾向得分悖论”,其中进一步修剪单元会增加一个点后的不平衡(某些其他匹配方法不共享),以及 3)使用倾向得分匹配后,效果估计对模型规范比其他匹配方法更敏感。我将简要讨论这些论点。
论点 (1) 是不可否认的,但可以通过首先对某些变量或它们的粗化版本进行精确匹配并在变量的层内进行 PS 匹配或使用 PS 来创建卡尺并使用不同的形式来改进 PS 匹配匹配(例如,马氏距离匹配 [MDM])到实际配对单元。尽管这些应该是标准方法,但研究人员通常只应用 PS 匹配而没有这些其他有益步骤。这增加了对倾向得分模型的正确规范以控制混杂的依赖,因为平衡仅在平均情况下实现,而不是完全或必然在变量的各种组合中实现。
论点(2)只是有点站得住脚。确实,当卡尺连续变窄时会出现 PS 悖论,不包括更多的单位,但研究人员可以很容易地评估他们的数据是否正在发生这种情况并进行相应的调整。如果在收紧卡钳后不平衡增加,则可以再次放松卡钳。此外,Ripollone 等人。(2018) 发现,虽然 PS 悖论确实发生,但并不总是出现在研究人员最常使用的通常推荐的卡尺宽度中,这表明 PS 悖论对于 PS 匹配的实际使用并不像否则会出现悖论。
论点(3)也只是有点站得住脚。King 和 Nielsen 证明,如果在 PS 匹配之后,您要使用许多不同的模型来估计治疗效果,那么可能的效果估计范围将比使用不同形式的匹配(特别是 MDM )。这意味着 PS 匹配不能防止模型依赖,这通常被吹捧为它的主要好处。效果估计仍然取决于使用的结果模型。这个论点的问题在于,研究人员通常不会在匹配后尝试数百种不同的结果模型。最常见的两种是无模型(即 t 检验)或仅涉及匹配中使用的协变量的主效应的模型。任何其他模型都会被视为可疑,
我试图通过重新创建他们的数据场景来解决与同事的争论来复制 King 和 Nielsen 的发现(与上述各点无关;这是关于所包含的协变量是混杂因素还是中介因素是否重要)。您可以在此处看到复制尝试。使用相同的数据生成过程,我能够复制他们的一些发现,但不是全部。(在演示中,您可以忽略右侧的图表。)
其他对 PS 匹配的批评更多是关于它们的统计性能。Abadie 和 Imbens (2016) 证明 PS 匹配不是很精确。De los Angeles Resa 和 Zubizarreta (2016) 在模拟中发现,与不涉及倾向得分的基数匹配相比,PS 匹配的表现可能大大落后。这是因为 PS 匹配依赖于 PS 的理论属性来平衡协变量,而基数匹配使用约束来要求平衡,从而确保样本中满足平衡。在所考虑的几乎所有场景中,PS 匹配的效果都比基数匹配差。也就是说,与许多模拟研究一样,如果 PS 匹配做得更好,该论文可能不会发表,因此这里可能存在选择效应。尽管如此,还是很难否认 PS 匹配是次优的。
你该怎么办?这取决于。匹配通常涉及平衡性、普遍性和样本量之间的权衡,这对应于内部有效性、外部有效性和精确度。PS 匹配没有优化它们,但可以修改它以牺牲一些来提升另一个(例如,使用卡尺会减少样本量并妨碍普遍性 [请参阅我的帖子)有关详细信息],但通常会改善平衡)。如果泛化性对您来说不那么重要(如果您要使用卡尺,这就是隐含的情况),那么基数匹配是保持平衡和精确度的好方法。更好的是重叠加权(Li et al., 2018),它保证了精确的平均平衡和最精确的 PS 加权估计,但使用加权而不是匹配,因此更依赖于正确的模型规范。但是,在许多情况下,PS 匹配效果很好,您可以在提交之前评估它是否在您的数据集中运行良好。如果它没有让您保持良好的平衡(广泛测量)或需要卡尺太紧才能做到这一点,您可能会考虑另一种方法。
Abadie, A. 和 Imbens, GW (2016)。估计倾向得分的匹配。计量经济学,84(2),781-807。https://doi.org/10.3982/ECTA11293
洛杉矶 Resa, M., & Zubizarreta, JR (2016)。评估子集匹配方法和协变量平衡的形式。医学统计,35(27),4961-4979。https://doi.org/10.1002/sim.7036
King, G. 和 Nielsen, R. (2019)。为什么不应使用倾向得分进行匹配。政治分析,1-20。https://doi.org/10.1017/pan.2019.11
Li, F.、Morgan, KL 和 Zaslavsky, AM (2018)。通过倾向得分加权平衡协变量。美国统计协会杂志,113(521),390–400。https://doi.org/10.1080/01621459.2016.1260466
Ripollone, JE, Huybrechts, KF, Rothman, KJ, Ferguson, RE 和 Franklin, JM (2018)。倾向评分匹配悖论在药物流行病学中的意义。美国流行病学杂志,187(9),1951-1961。https://doi.org/10.1093/aje/kwy078
@Noah 的回答非常棒,可以作为一篇迷你评论文章。对我来说,PS 匹配的严重问题最严重的是(1)它并不代表可重复的研究,因为匹配算法的选择太多悬而未决,并且大多数匹配算法会根据您的排序方式给出不同的结果数据集,以及(2)任何丢弃相关观察的方法都构成不良的统计实践,并且从精度/方差的角度来看通常效率很低。需要提出另一个问题:为什么要使用倾向得分?我看到许多研究人员在直接协变量调整要好得多时使用 PS,例如,当有 100,000 个观察值和 100 个协变量时。