机器算法验证 - 倾向得分匹配——机制如何导致与无与伦比的结果不同？ - 吾爱随笔录

据我了解，倾向得分匹配的要点如下：

您想要估计某种治疗对某些结果的平均治疗效果 (ATE)。但是，如果您只是计算治疗组和未治疗组的平均结果之间的差异，如果影响结果变量的因素也首先影响接受治疗的概率，这可能是对 ATE 的有偏估计。

倾向得分匹配通过将已治疗和未治疗的观察结果与接受治疗的相似概率（通过协变量上的治疗状态的逻辑回归）进行匹配来最小化这个问题，然后将 ATE 估计为匹配对之间结果的平均差异。

到现在为止还挺好？这在概念上听起来不错，但我遇到的麻烦是看到实际机制如何导致匹配而不是幼稚的 ATE 估计的不同结果。

为了显示：

假设四个人， $X_a, X_b, Y_a, Y_b$ ，在哪里 $X$ 表示该人未接受治疗， $Y$ 表示该人确实接受了治疗， $a$ s 具有彼此相似的协变量值，并且 $b$ s 具有彼此相似的协变量值。

并假设 $F(^*)$ 表示您试图估计治疗效果的结果。

您首先天真地估计 ATE，查看治疗的平均结果和未治疗的平均结果的简单差异。

天真的ATE估计： $\frac{F(Y_a)+F(Y_b)}2 - \frac{F(X_a)+F(X_b)}2$

接下来，您通过首先匹配倾向得分来估计 ATE。如前所述，索引每个个体的下标反映了协变量值，因此在我们运行逻辑回归后（忽略样本量问题），我们发现 $X_a$ 和 $Y_a$ 彼此具有相似的倾向得分，而 $X_b$ 和 $Y_b$ 有相似的倾向得分。我们继续研究这些匹配对之间的平均差异。

匹配的 ATE 估计： $\{[F(Y_b)-F(X_b)] + [F(Y_a)-F(X_a)]\}/2$

问题是幼稚的 ATE 估计和匹配的 ATE 估计在数学上是等价的！

现在我确定我在匹配 ATE 估计的公式中犯了一个错误。我的问题是，我哪里出错了？

PS：我知道倾向得分匹配也可用于删除没有合适匹配的观察，但我想忽略这种情况，因为我对倾向得分匹配的理解是它应该导致与天真的估计不同的估计即使所有观察结果都匹配，也可以进行估计。