我从 R 中的 matchit() 函数中了解了使用马氏距离而不是 PS 进行匹配的选项。这似乎是一种更加非参数的方法。能否说说它的优缺点,在什么情况下适合?
在匹配中使用马氏距离而不是倾向得分有什么优缺点
Mahalanobis 距离匹配 (MDM) 和倾向得分匹配 (PSM) 是做同样事情的方法,即找到与处理单元相似的控制单元子集以达到平衡样本(即协变量的分布是两组相同)。
MDM 的工作原理是根据称为 Mahalanobis 距离的距离对接近的单位进行配对,您可以将其视为无标度欧几里得距离。如果两个单位的马氏距离为 0,它们必须具有相同的协变量值。协变量值越不同,马氏距离越大。这个想法是,如果您在马氏距离上找到接近处理单元的控制单元,每对将具有相似的协变量值,并且匹配样本中处理组中协变量的分布将是相似的。
PSM 通过配对具有相似倾向得分的单元来工作。倾向得分将整个协变量分布简化为一个维度;这意味着具有相似倾向得分的两个单位不一定具有相似的协变量值。然而,由于倾向得分的理论平衡特性,PSM 仍然可以产生平衡的样本,即使任何单个匹配的单元对可能没有相似的协变量值。
这两种方法之间的差异,即 MDM 在协变量值上创建接近的对,而 PSM 没有(尽管两者都可能有效地产生平衡样本),是 King & Nielsen (2019) 对 PSM 的著名批评的焦点。请参阅下面的图表,取自 2019 年的论文:

在这里,我们有相同的处理(红色)和控制(蓝色)单元数据集,两个协变量(X1,x 轴和 X2,y 轴)被匹配。左侧使用 MDM 对单元进行配对(每个灰色链接为一对),右侧使用 PSM。您可以看到,使用 MDM 时,配对单元的协变量值比使用 PSM 时要多得多。PSM 将协变量空间缩减为一维,对应于右侧图中的对角线模式。单位彼此配对是因为它们具有相似的倾向得分,即使它们在协变量值上差异很大。
为什么这很重要?King & Nielsen 认为 PSM 会产生脆弱且不可靠的估计值,这些估计值可能会因使用的结果模型而有很大差异。特别是,如果您逐步丢弃彼此相距较远的单位(即,通过施加越来越紧的卡尺),即使在 PS 上仍然靠近的单位仍然存在,使用 PSM 最终平衡开始变得更糟。他们将此称为倾向得分悖论,这是不推荐使用 PSM 以支持可能更强大的方法(如直接在协变量空间上匹配的 MDM)的动机。
那么,我们应该避免 PSM 并坚持 MDM 吗?不,Rippolone 等人。(2018 年)调查了倾向评分悖论对真实流行病学数据的影响。他们发现,虽然某些数据确实出现了悖论,但在使用极端卡尺值之前并不麻烦,远远超出了推荐的值。PSM 通常在协变量上产生良好的平衡。相比之下,MDM 在一个数据集中的平衡很差,有时甚至比完全没有匹配还要糟糕。参见 Ripollone 等人的下图。(2018) 在一个数据集上比较 MDM(蓝色)和 PSM(红色和绿色)的平衡结果,因为更多的单元被修剪:
y 轴是匹配数据集中协变量平衡的度量(与用于匹配的成对马氏距离无关),黑点是匹配前的平衡。我们可以看到,随着更多单元被修剪(沿 x 轴向右移动),PSM 的平衡性变得更差,而 MDM 的平衡性更好,但在 PSM 卡尺(垂直虚线)的已发布建议中,平衡性对于 PSM 非常好,对于MDM。
我们如何通过比较相同的方法得出如此不同的结论?答案是这一切都取决于数据集及其独特的品质,包括其大小、初始平衡以及要匹配的协变量的数量和类型。值得注意的是,在分析与上述不同的数据集时,Ripollone 等人。发现 MDM 比 PSM 产生更好的平衡。一般来说,MDM 往往在协变量和正态分布的协变量很少的情况下工作得更好,而 PSM 往往工作得很好,只要倾向得分被合理地估计好(因为匹配是在倾向得分上完成的,而不是协变量本身)。不过,关键是,当 MDM 工作时,它确实有效,因为它可以提供匹配的样本,这些样本不仅整体平衡良好,而且包含紧密配对的单元,
你该怎么办?通常我会说尝试两者,但这次我只会说使用基因匹配(即,method = "genetic"在MatchIt),它结合了 PSM 和 MDM,并使用优化来找到在匹配数据集中提供最佳平衡的距离度量。它比 MDM 和 PSM 慢得多,但结果会更好,正如许多模拟研究所表明的那样。遗传匹配是 King & Nielsen 推荐的另一种不屈服于倾向得分悖论的方法。如果您不能使用遗传匹配(例如,因为您的数据集太大或者您没有时间等待),那么您应该尝试 MDM 和 PSM,并选择能够产生广泛测量的最佳平衡的一种(即,关于成对协变量距离和 KS 统计量和多项式以及协变量的相互作用,而不仅仅是均值)。使用起来很简单MatchIt快速尝试并比较几种匹配方法,然后再选择一种进行效果估计。
在使用 PSM 时,有一些方法可以确保紧密配对,例如对某些协变量进行精确匹配、将卡尺直接放在协变量上,或者在倾向评分卡尺内进行 MDM。所有这些都是可能的MatchIt,应该尝试和比较。
King, G. 和 Nielsen, R. (2019)。为什么不应使用倾向得分进行匹配。政治分析,1-20。https://doi.org/10.1017/pan.2019.11
Ripollone, JE, Huybrechts, KF, Rothman, KJ, Ferguson, RE 和 Franklin, JM (2018)。倾向评分匹配悖论在药物流行病学中的意义。美国流行病学杂志,187(9),1951-1961。https://doi.org/10.1093/aje/kwy078
我认为它们没有可比性,因为它们试图实现不同的目标。使用基于协变量接近度的马氏距离匹配,其中 PS 匹配基于分配到治疗组的概率。
作为这些差异的一个示例,假设您的 PS 模型中有一个预测变量,该变量实际上具有非常低的预测能力。在这种情况下,您可能会在此变量值中有巨大的波动,最终对患者 PS 没有影响,进而对他们匹配的对象没有影响。相比之下,该变量值的大幅波动会对马氏距离下患者的匹配对象产生巨大影响。
在某种程度上,我喜欢将 PS 视为马氏距离的加权版本,我们根据我们想要的结果(在这种情况下分配给治疗的概率)对变量的重要性进行加权
