在我的研究中,运行一个简单的线性模型来计算每个示例的去倾向得分似乎无法正确模拟我的治疗选择过程。我的问题是,使用“更强”的模型(svm,nn,你的名字)来尝试获得更精确的倾向得分是否有意义?
先感谢您!
在我的研究中,运行一个简单的线性模型来计算每个示例的去倾向得分似乎无法正确模拟我的治疗选择过程。我的问题是,使用“更强”的模型(svm,nn,你的名字)来尝试获得更精确的倾向得分是否有意义?
先感谢您!
有两种方法可以对倾向得分进行建模。一种是尝试尽可能接近治疗分配过程,另一种是获得产生协变量平衡的倾向得分。
第一种方法依赖于这样的发现,即在格式良好的倾向得分上进行平衡可以完全平衡所有预处理协变量(即,它们的整个联合分布)。这就是 Rosenbaum & Rubin (1983) 的发现以及倾向得分变得如此重要的原因。这样做的一个问题是,几乎没有希望对治疗过程进行正确建模以获得倾向得分,而且一些证据表明,即使正确地对其进行参数建模也是低效的(Kim,2019 年)。已经开发了许多替代方案,它们使用机器学习方法来灵活地对倾向得分进行建模。我见过的最有效的两个是贝叶斯加性回归树(BART;Hill,2011;应用于倾向得分建模 Hill 等人,2011 年)和 SuperLearner(Pirrachio 等人,2015 年)。BART 是一种树总和方法,它使用贝叶斯先验来防止过度拟合,同时允许模型非常灵活。SuperLearner 是一种堆叠方法,允许您提供许多不同的机器学习方法,它要么选择最好的方法,要么采用它们的最佳加权组合。如果任何机器学习方法接近真实模型,SuperLearner 的性能将与最好的(渐近地)一样好或更好。
另一种方法涉及估计产生平衡的倾向得分。我将平衡定义为结果模型中每个术语的均值在治疗组之间相同的情况。例如,如果结果模型是在哪里和是治疗,平衡是什么时候和接近, 在哪里是平均值在治疗组. 在采用这种方法时,建议分析师尝试许多不同的倾向评分模型来找到实现平衡的模型,无论它是否模仿真正的治疗分配机制(Ho et al., 2007)。有一些倾向得分估计方法将平衡作为其估计的一部分:广义提升建模的 TWANG 实现 (McCaffrey, Ridgeway, & Morral, 2004) 从基于平衡的提升分类中选择用于计算预测值的树数用户选择的标准。协变量平衡倾向得分 (Imai & Ratkovic, 2014) 将平均平衡直接纳入倾向得分的逻辑回归模型的估计中。还有其他方法可以绕过倾向得分模型并直接估计平衡协变量的权重,包括熵平衡(Hainmueller,2012)和稳定平衡权重(Zubizarreta,2015),尽管已经发现这些方法隐含地适合倾向评分模型。这些方法的一个问题是,人们必须对结果模型的形式有一个很好的了解。也就是说,使用其中一些方法,可以在协变量分布的许多时刻(即均值、方差、偏斜等)及其相互作用上实现平衡,以便无论结果模型是什么,都能实现足够的平衡。尽管已经发现这些方法隐含地适合倾向评分模型。这些方法的一个问题是,人们必须对结果模型的形式有一个很好的了解。也就是说,使用其中一些方法,可以在协变量分布的许多时刻(即均值、方差、偏斜等)及其相互作用上实现平衡,以便无论结果模型是什么,都能实现足够的平衡。尽管已经发现这些方法隐含地适合倾向评分模型。这些方法的一个问题是,人们必须对结果模型的形式有一个很好的了解。也就是说,使用其中一些方法,可以在协变量分布的许多时刻(即均值、方差、偏斜等)及其相互作用上实现平衡,以便无论结果模型是什么,都能实现足够的平衡。
无论您选择哪种方法,您都应该评估协变量的平衡。理想情况下,您希望通过确保在尽可能多的协变量及其转换上保持平衡,同时保持高效的样本量来管理偏差-方差权衡。如果不依赖深入的实质性知识或对结果进行建模,就无法知道最佳权衡是什么。事实上,在许多情况下,我建议对结果进行建模,而不是单独使用倾向得分。事实证明,将 BART 用于带有协变量中包含的 BART 估计倾向得分的结果模型非常有效(Dorie 等人,2019 年),并且易于在bartCause R 包中实施。
Dorie, V.、Hill, J.、Shalit, U.、Scott, M. 和 Cervone, D. (2019)。因果推理的自动化与自己动手的方法:从数据分析竞赛中吸取的教训。统计科学,34(1),43-68。https://doi.org/10.1214/18-STS667
海恩穆勒,J. (2012)。因果效应的熵平衡:在观察性研究中产生平衡样本的多元重加权方法。政治分析,20(1),25-46。https://doi.org/10.1093/pan/mpr025
希尔,JL(2011)。用于因果推理的贝叶斯非参数建模。计算和图形统计杂志,20(1),217–240。https://doi.org/10.1198/jcgs.2010.08162
Hill, J.、Weiss, C. 和 Zhai, F. (2011)。高维环境中倾向评分策略的挑战和潜在的替代方案。多元行为研究,46(3),477-513。https://doi.org/10.1080/00273171.2011.570161
Ho, DE, Imai, K., King, G. 和 Stuart, EA (2007)。匹配作为非参数预处理以减少参数因果推理中的模型依赖性。政治分析,15(3),199-236。https://doi.org/10.1093/pan/mpl013
金,K. il。(2019)。当真实倾向是参数时平均治疗效果估计的效率。计量经济学, 7(2), 25. https://doi.org/10.3390/econometrics7020025
McCaffrey, DF, Ridgeway, G., & Morral, AR (2004)。使用增强回归评估观察性研究中因果效应的倾向得分估计。心理学方法,9(4),403-425。https://doi.org/10.1037/1082-989X.9.4.403
Pirracchio, R.、Petersen, ML 和 van der Laan, M. (2015)。使用超级学习器提高倾向得分估计器对模型错误指定的鲁棒性。美国流行病学杂志,181(2),108-119。https://doi.org/10.1093/aje/kwu253
罗森鲍姆公关和鲁宾 DB (1983)。倾向评分在因果效应的观察性研究中的核心作用。生物计量学,70(1),41-55。https://doi.org/10.1093/biomet/70.1.41
小苏比萨雷塔 (2015)。平衡估计的协变量与不完整结果数据的稳定权重。美国统计协会杂志,110(511),910–922。https://doi.org/10.1080/01621459.2015.1023805
对于最新的艺术作品,请查看2022 年因果学习与推理 (CLeaR)会议。
如果您对估计完整联合分布的概率模型感兴趣
有关准备就绪的 TensorFlow keras 实施,请参阅https://github.com/gmgeorg/pypsps代码示例和笔记本案例研究,以预测单元级治疗效果、倾向得分、反事实预测等。