为什么倾向得分匹配比匹配更好?

机器算法验证 因果关系 倾向评分 匹配
2022-02-10 02:41:27

高级倾向得分匹配使用以下框架:

  1. 从协变量中识别潜在的混杂因素,即所有可能影响受试者成为实验组一部分的因素
  2. 计算倾向得分 = Pr(受试者是治疗的一部分 | 协变量)
  3. 创建一个模型来估计每个接受治疗的受试者的成员资格。
  4. 受试者根据倾向得分分为多个控制/实验层。这将使组与在协变量方面具有相似特征的受试者保持平衡。
  5. 通过平均每个层的因变量的差异总和来计算治疗效果。

我的问题是:为什么这比仅将治疗对象与通过距离测量和协变量值测量的类似未治疗对象匹配更好?然后平均所有治疗-未治疗受试者对之间的差异总和?

这似乎更简单,并且似乎可以解决 PSM 旨在减少/消除的自我选择偏差。

我在这里想念什么?

2个回答

您描述的过程不是倾向得分匹配,而是倾向得分子分类倾向得分匹配中,根据倾向得分之间的差异选择成对的单元,并丢弃未配对的单元。这两种方法都是使用倾向评分来减少在观察性研究中导致混淆偏差的不平衡的流行方法。

在倾向得分匹配中,两个单元之间的距离是它们倾向得分之间的差,倾向得分是根据协变量计算的,因此通过倾向得分匹配,您是基于距离度量和协变量值进行匹配。还有其他不涉及匹配中经常使用的倾向得分的距离度量,例如马氏距离。一些研究表明,作为距离度量,马氏距离比倾向得分差更有效,而一些研究表明并非如此。每个的相对性能取决于数据集的独特特征;对于哪种方法更好,没有办法提供一个始终正确的单一规则。两者都应该尝试。您还可以将倾向得分作为协变量包含在马氏距离中。

如果您的问题更多是关于为什么我们会在可以进行倾向得分匹配时进行倾向得分子分类,那么有一些考虑因素。和以前一样,您应该始终使用在您的样品中产生最佳平衡的任何方法。倾向得分子分类可以更好地实现某些数据集的平衡和其他数据集的倾向得分匹配。没有理由单方面决定使用一种方法而不是另一种方法。子分类允许您估计 ATT 或 ATE,而大多数匹配方法只允许 ATT。当以某些方式使用时,子分类与倾向得分加权密切相关,而匹配通常不会为个体分配不均匀的权重。通过匹配,您可以更多地自定义规格(例如,通过使用卡尺,通过改变控制与处理的比率等),而通过子分类,定制的机会更加有限。面对完全匹配,匹配和子分类之间的区别是模糊的,完全匹配是两者之间的混合体,通常表现得更好。一些论文比较了这两种方法的性能,但正如我之前提到的,重要的是不要依赖一般结果,而是在样本中尝试这两种方法。

查看 R 包的文档MatchIt其中详细介绍了几种匹配方法,并讨论了它们的一些相对优点和自定义方法。

让我们退后一步,更广泛地思考如何在给定一些数据 X 的情况下进行匹配。

精确匹配或单元匹配

这对于连续的 X 来说很难做到。您可以尝试对每个变量进行舍入/离散化,但这会引入一些测量误差。如果您选择继续,那么您可以交互这些新变量来定义单元格。在这里,随着 X 变大,您会遇到维度的诅咒。如果你有五个变量,每个变量都有三个值,你有35=243细胞。

那么该怎么办?

不精确匹配

不精确的匹配程序通过在 X 上定义距离度量然后使用距离而不是 X 进行匹配来减少问题的维度。马氏距离是一种常见的 DM。但是您可以有两个在 MD 中相距甚远但治疗概率相同的观察结果。在许多应用中,如果秃头和胖乎乎的人都增加了寻求治疗的倾向,那么可以将一个因为秃头而可能接受治疗的人与一个因为胖乎乎而有相似可能性的对照者进行比较. 在 PSM 框架中,这会创建一个更大的匹配池。

渐近地,所有不精确匹配方案都是一致的,因为随着样本变大,它们都倾向于精确匹配(在 X 上或倾向得分上)。然而,它们在有限样本中会产生非常不同的答案,并且在有限样本中都存在偏差。PSM 可能不如找到相似的人那么直观,但目标不是找到相似的人。这是为了找到接受治疗的可能性相似的人。