倾向评分法是一种用于调整混杂的方法。还有其他几种方法依赖于不同的假设。一些最流行的包括差异中的差异,它依赖于关于随时间稳定性的假设,以及工具变量分析,它依赖于关于一些其他变量的随机化的假设。第三类方法包括依赖于所有混杂变量均已测量的假设的方法。我强烈推荐Matthay 等人在 2020 年发表的这篇文章。用于比较这些方法。
倾向评分方法属于后一类。其他方法也属于此类,包括回归调整、“g”方法和双重鲁棒方法。这些都是通过以某些方式调节测量协变量来调整混杂的不同方法。在有关治疗和结果过程的功能形式的各种假设下,它们的主要区别在于其统计性能。
有几种使用倾向得分的方法,包括匹配(您所描述的)、加权、子分类和回归调整,并且有多种方法可以在没有倾向得分的情况下执行这些方法。我提到所有这些是为了让您将倾向得分视为一种特定的方法实现,这些方法本身是一大类方法的成员,这是可以用来调整混杂的几类方法之一。倾向评分方法不一定优于它们中的任何一种,它们的普遍性很可能是一种文化产物,而不是它们的统计性能真正证明了这一点。
以下是倾向得分为何受欢迎的几个原因(和反驳):
- 它们很容易实现(但只能以最基本、性能最差的方式;要很好地使用它们需要广泛的知识)
- 它们很容易向非专业观众解释(但许多不涉及倾向得分的方法也是如此,就像其他匹配方法一样)
- 它们往往可以有效地消除由于混杂导致的偏见(但有几种方法明显更好,尤其是比最常用的倾向评分方法更好)
- 它们将设计和分析阶段分开,导致更多可复制的研究并减少模型依赖性(但如果使用不当会增加模型依赖性,并且无法避免窥探和恶意或被误导的使用)
- 它们在大多数统计软件中实现(但许多其他方法也是如此,并且它们在每个软件中的实现方式不同)
- 它们是高维数据集中降维的一种形式(但还有其他降维方法,并且仍然使用倾向得分来调整一些协变量)
- 与基于回归的方法相比,它们对建模假设的依赖更少(但还有许多其他方法也可以提供极大的灵活性,并且通常会提高性能)
- 它们听起来很花哨,让分析师看起来很老练(但有经验的统计学家可以很容易地指出业余用户经常犯的错误)
(您可能认为我对倾向得分有偏见,但请检查倾向评分标记并查看我的参与。我也是几个 R 包的作者,以方便使用倾向评分方法。)
在我看来,倾向得分在医学文献中被过度使用(或者,充其量是不合理的)。有许多性能更好、更复杂的方法依赖于与倾向评分方法相同的假设,而这些方法在医学研究中被低估了,这通常是因为医学研究中的分析师和审稿人不熟悉它们。我希望鼓励人们将倾向得分作为众多选项中的一个选项,每个选项都有自己的优点和缺点,使其或多或少适用于给定的问题。要确定哪个选项最适合给定问题,需要在因果效应估计领域受过专门训练的统计学家的协助。