倾向得分是否匹配科学研究的“必须”?

机器算法验证 因果关系 倾向评分 匹配 观察研究
2022-03-03 12:10:29

最近,我一直在阅读有关倾向得分匹配的文章:

在此处输入图像描述

如果我理解正确的话,倾向评分匹配用于在科学研究中构建对照组/治疗组,以使对照组中的个体与治疗组中的个体尽可能相似。换句话说,这些组中的一个人与另一组中的同等个人“匹配”。这样做是为了减少“潜在和未观察到的”变量共同影响治疗效果的风险——以及“苹果与苹果相比”而不是“苹果与橙子相比”。

从表面上看,这似乎非常重要——毕竟,如果我们要测试某种药物对两组相似人群的影响,我们希望避免这些人群中的一个主要由奥林匹克运动员和运动员组成的风险。其他老年人(假设研究的目标是比较药物对类似人群的影响)。

我的问题:澄清一下——大多数研究人员在进行此类统计研究时是否尝试实施某种形式的倾向得分匹配?这是“必须”吗?

如果某种形式的倾向得分匹配没有相对于研究目标正确实施,这是否会造成统计研究无效的高风险?根据维基百科的文章(https://en.wikipedia.org/wiki/Propensity_score_matching),倾向得分匹配在 1980 年代得到普及——这是否表明 1980 年代之前进行的统计研究更有可能遭受这些类型的影响?不希望的变量混杂效应?

2个回答

倾向评分法是一种用于调整混杂的方法。还有其他几种方法依赖于不同的假设。一些最流行的包括差异中的差异,它依赖于关于随时间稳定性的假设,以及工具变量分析,它依赖于关于一些其他变量的随机化的假设。第三类方法包括依赖于所有混杂变量均已测量的假设的方法。我强烈推荐Matthay 等人在 2020 年发表的这篇文章。用于比较这些方法。

倾向评分方法属于后一类。其他方法也属于此类,包括回归调整、“g”方法和双重鲁棒方法。这些都是通过以某些方式调节测量协变量来调整混杂的不同方法。在有关治疗和结果过程的功能形式的各种假设下,它们的主要区别在于其统计性能。

有几种使用倾向得分的方法,包括匹配(您所描述的)、加权、子分类和回归调整,并且有多种方法可以在没有倾向得分的情况下执行这些方法。我提到所有这些是为了让您将倾向得分视为一种特定的方法实现,这些方法本身是一大类方法的成员,这是可以用来调整混杂的几类方法之一。倾向评分方法不一定优于它们中的任何一种,它们的普遍性很可能是一种文化产物,而不是它们的统计性能真正证明了这一点。

以下是倾向得分为何受欢迎的几个原因(和反驳):

  • 它们很容易实现(但只能以最基本、性能最差的方式;要很好地使用它们需要广泛的知识)
  • 它们很容易向非专业观众解释(但许多不涉及倾向得分的方法也是如此,就像其他匹配方法一样)
  • 它们往往可以有效地消除由于混杂导致的偏见(但有几种方法明显更好,尤其是比最常用的倾向评分方法更好)
  • 它们将设计和分析阶段分开,导致更多可复制的研究并减少模型依赖性(但如果使用不当会增加模型依赖性,并且无法避免窥探和恶意或被误导的使用)
  • 它们在大多数统计软件中实现(但许多其他方法也是如此,并且它们在每个软件中的实现方式不同)
  • 它们是高维数据集中降维的一种形式(但还有其他降维方法,并且仍然使用倾向得分来调整一些协变量)
  • 与基于回归的方法相比,它们对建模假设的依赖更少(但还有许多其他方法也可以提供极大的灵活性,并且通常会提高性能)
  • 它们听起来很花哨,让分析师看起来很老练(但有经验的统计学家可以很容易地指出业余用户经常犯的错误)

(您可能认为我对倾向得分有偏见,但请检查标记并查看我的参与。我也是几个 R 包的作者,以方便使用倾向评分方法。)

在我看来,倾向得分在医学文献中被过度使用(或者,充其量是不合理的)。有许多性能更好、更复杂的方法依赖于与倾向评分方法相同的假设,而这些方法在医学研究中被低估了,这通常是因为医学研究中的分析师和审稿人不熟悉它们。我希望鼓励人们将倾向得分作为众多选项中的一个选项,每个选项都有自己的优点和缺点,使其或多或少适用于给定的问题。要确定哪个选项最适合给定问题,需要在因果效应估计领域受过专门训练的统计学家的协助。

正如 Alexis 所指出的,倾向得分匹配 (PSM) 是我们在因果推理中拥有的众多工具之一。另一种是逆概率加权估计器(IPWE)您还可以使用因果发现来推断因果图并使用do-calculus来估计因果效应。或者利用工具变量估计我只是在这里抛出很多名字(尽管带有链接,以防您想了解更多有关它的信息),目的是为了向您展示当您的目标是观察数据中的因果推断时,您有很多工具他们都做一些特定的事情,并有其优点和局限性。

当我们想对观测数据进行因果推断时,我们是否应该总是使用这些工具?是的。所有的科学研究都是关于这个的吗?不,什么是最好的?这取决于您想要什么,您想要什么以及您拥有什么:-)。

最后一件事:在这种情况下,潜在的和未观察到的是同义词。潜在的混杂因素和未观察到的混杂因素指的是同一件事。此外,在推断因果关系时,混淆并不是你唯一的敌人。对撞机偏差是另一种,倾向得分匹配不考虑由于审查造成的偏差