机器算法验证 - 倾向得分匹配的用例是什么？ - 吾爱随笔录

倾向得分匹配的用例是什么？

机器算法验证推理因果关系倾向评分匹配治疗效果

2022-03-06 03:00:25

我在这里问过，为了建立因果关系，治疗组和对照组是否必须在所有协变量上都相似。

如果我们控制 OLS 回归中的协变量，答案是否定的。

那么倾向得分匹配的用例是什么？

为什么我不能只运行 OLS 回归来控制两组（治疗组和对照组）不同的协变量？

编辑：问题是我的同事说我在链接问题中提出的 OLS 不起作用，我们需要使用倾向得分匹配。维基百科的说法恰恰相反：

这种阻塞可以通过在回归中添加混杂变量作为控制来完成，或者通过匹配混杂变量来完成。

因此，根据 Wikipedia 的说法，无论是添加变量作为控件还是使用倾向得分匹配，这两种方式都可以正常工作

编辑：该主题也在12:00 分钟的视频中介绍

3个回答

您需要区分使用倾向得分来匹配案例还是进行更一般的调整。

此页面上的讨论表明倾向得分匹配的用例并不多。除其他问题外，丢弃信息很少有什么好处。然而，这就是匹配案例所做的，通过使用匹配的倾向得分引入了额外的问题。

也就是说，如果结果的回归模型（包括感兴趣的治疗效果和协变量）不完整或不正确，则将自己限制在回归以控制协变量可能会失败。而且没有先验的方法可以知道是否是这种情况。

逆倾向得分加权提供了另一种在治疗组和对照组之间实现有效协变量平衡的方法。获得治疗的可能性较低的病例获得较高的权重，从而在治疗组之间提供更分级的平衡。这有助于估计如果具有相同特征的个体在对照组和治疗组中得到同等代表，会发生什么。

您可以通过回归和倾向得分将两种类型的控制结合起来，以获得有时称为“双重稳健”的估计。如果回归或倾向评分模型都可以，您可以获得治疗效果的可靠测量 - 正如 Björn 在评论中正确指出的那样，未观察到的协变量不存在影响治疗组之间结果的异质性。

您提出的问题远远超过几段可以涵盖的内容。阅读 Hernán 和 Robins 的因果推理书，了解最近的全面治疗。

倾向得分 (PS) 分析通常存在许多问题，而匹配问题尤其严重。如果您需要倾向得分，我更喜欢对 PS 的 logit 的样条函数进行协变量调整，并且您还必须包括预先指定的个体强协变量以吸收结果异质性。如果样本量相对于模型参数的数量很大，那么没有 PS 的普通协变量调整就可以了。PS 分数和匹配问题在此处的链接中有详细说明。

补充 EdM 和 Frank Harrell 的答案（对两者都 +1）。

人们可能想考虑将倾向得分作为治疗组分配的直接概率进行扩展。通常，此类工作旨在重新加权我们手头的样本，以使某些特征“平衡”。一个典型的例子是熵平衡，（Hainmueller (2012) Entropy Balancing for Causal Effects: A Multivariate Reweighting Method to Produce Balanced Samples in Observational Studies - 请参阅 R 包ebal）。这里的平衡是指使用权重，使得与两组感兴趣的选定协变量相关的矩大致相等（例如，两组在年龄和受教育年限方面具有相似的均值和方差）。您可能还需要考虑其他一些协变量平衡方法（例如协变量平衡倾向得分（Imai & Ratkovic (2013)协变量平衡倾向得分）或目标稳定平衡权重（Zubizarreta (2015)平衡协变量与不完整结果数据估计的稳定权重） - 分别参见 R 包CBPS和optweight）。

我们可以直接使用这些权重，也可以在 IPTWS 或双重稳健方法中使用这些权重（正如 EdM 建议的那样）。请注意，尽管没有匹配方法可以保护我们免受无法测量的混杂变量的影响。

其它你可能感兴趣的问题

上一篇你是如何从纸上变成代码的？下一篇如何测量两个累积分布函数 (CDF) 之间的偏移？