多重插补后的倾向得分匹配

机器算法验证 缺失数据 倾向评分
2022-01-29 21:41:12

我参考这篇论文:Hayes JR,Groner JI。 “使用多重插补和倾向得分来测试汽车座椅和安全带使用对创伤登记数据的伤害严重程度的影响。” 小儿外科杂志。2008 年 5 月;43(5):924-7。

在本研究中,进行了多重插补以获得 15 个完整的数据集。然后为每个数据集计算倾向得分。然后,对于每个观察单元,从已完成的 15 个数据集中(包括相关的倾向得分)中随机选择一个记录,从而创建一个最终数据集,然后通过倾向得分匹配对其进行分析。

我的问题是:这是在多重插补后执行倾向得分匹配的有效方法吗?有其他方法吗?

背景:在我的新项目中,我的目标是使用倾向得分匹配比较两种治疗方法的效果。有缺失数据,我打算使用MICER中的包来估算缺失值,然后twang进行倾向得分匹配,然后lme4分析匹配的数据。

更新1:

我发现这篇论文采用了不同的方法:Mitra, Robin and Reiter, Jerome P. (2011) Propensity score matching with missing covariates via itered,sequential multiple imputation [工作论文]

在本文中,作者计算了所有插补数据集的倾向得分,然后通过平均将它们汇集在一起​​,这是使用鲁宾规则进行点估计的多重插补的精神 - 但它真的适用于倾向得分吗?

如果 CV 上的任何人都可以提供对这两种不同方法和/或任何其他方法的评论的答案,那将是非常好的......

3个回答

首先要说的是,对我来说,方法 1(抽样)似乎没有太多优点——它放弃了多重插补的好处,并减少了对每个观察的单一插补,正如 Stas 所提到的。我看不出使用它有什么好处。

在 Hill (2004) 中,围绕缺失数据的倾向评分分析问题进行了精彩的讨论:Hill, J. “Reducing Bias in Treatment Effect Estimation in Observational Studies Suffing from Missing Data” ISERP Working Papers, 2004。可从以下网址下载在这里

本文考虑了使用多重插补(以及其他处理缺失数据的方法)和倾向得分的两种方法:

  • 多重插补后倾向得分的平均值,然后是因果推理(上面帖子中的方法2)

  • 使用来自多重插补的每组倾向得分进行因果推断,然后对因果估计进行平均。

此外,本文还考虑了结果是否应作为预测变量包含在插补模型中。

Hill 断言,虽然多重插补优于其他处理缺失数据的方法,但一般来说,没有先验有理由更喜欢其中一种技术而不是另一种。但是,可能有理由更喜欢对倾向得分进行平均,特别是在使用某些匹配算法时。Hill 在同一篇论文中进行了一项模拟研究,发现在因果推断之前对倾向得分进行平均,当在插补模型中包含结果时,在均方误差方面产生了最好的结果,并且首先对得分进行平均,但没有结果在插补模型中,在平均偏差(估计和真实治疗效果之间的绝对差异)方面产生了最好的结果。通常,建议将结果包含在插补模型中(例如,请参见此处)。

所以看起来你的方法2是要走的路。

两种范式可能会发生冲突。多重插补是一种基于模型的贝叶斯解决方案:正确插补的概念本质上表明您需要从明确定义的数据后验分布中进行采样,否则您就完蛋了。另一方面,倾向得分匹配是一个半参数过程:一旦你计算了倾向得分(无论如何,你可以使用核密度估计,不一定是 logit 模型),你可以做剩下的通过简单地使用具有相同倾向得分的处理和未处理的观察值之间的差异,这现在有点非参数化,因为没有模型可以控制其他协变量。我不Abadie 和 Imbens (2008)讨论了在某些匹配情况下,实际上不可能正确地获得标准误差)。我会更加信任更平滑的方法,例如通过逆倾向加权。我最喜欢的参考书是“Mostly Harmless Econometrics”,副标题为“An Empiricist Companion”,面向经济学家,但我认为这本书应该是其他社会科学家、大多数生物统计学家和非生物统计学家的必读书籍,所以他们知道其他学科如何处理数据分析。

无论如何,每次观察仅使用 15 条模拟完整数据线中的一条相当于一次插补。因此,与所有 15 个完整的数据集相比,您会损失效率,并且您无法正确估计标准误差。从任何角度来看,对我来说都是一个有缺陷的程序。

当然,我们很高兴地掩盖了多重插补模型和倾向模型在所有正确的函数形式中具有所有正确变量的意义上都是正确的假设。几乎没有办法检查这一点(尽管我很高兴听到关于这两种方法的诊断措施的其他信息)。

我不能真正谈论这个问题的理论方面,但我会给出我使用 PS/IPTW 模型和多重插补的经验。

  1. 我从未听说过有人使用多重估算数据集和随机抽样来构建单个数据集。这并不一定意味着它是错误的,但这是一种奇怪的使用方法。数据集也不够大,您需要发挥创造力来运行 3-5 个模型而不是只运行一个模型,以节省时间和计算量。
  2. 鲁宾规则和池化方法是一个非常通用的工具。鉴于合并后的多重插补结果可以仅使用方差和估计值来计算,我没有理由看到它不能用于您的项目 - 创建插补数据,对每个集合执行分析,然后合并。这就是我所做的,这是我所看到的,除非你有明确的理由不这样做,否则我真的看不出有什么理由去做更奇特的事情——尤其是如果你不明白什么是继续方法。