二元结果的治疗加权逆概率 (IPTW) 估计量

机器算法验证 因果关系 二进制数据 观察研究
2022-04-01 12:50:32

最近,已经提出了几种估计量来估计观察研究中的平均治疗效果(ATE),例如 IPTW、双重稳健估计量等。当结果变量为连续的。但是,将这些估计器用于二元结果对我来说根本没有任何意义。有许多研究人员在“医学统计学”等统计期刊上发表了他们的论文,以演示当结果变量为“二分/二元”变量时如何使用这些估计量来估计 ATE(风险差异,OR,RR)。IPTW 估计量是

Δ^=1N{i=1NZiYie^ii=1N(1Zi)Yi1e^i},

在哪里N是样本量, e^i是估计的重量,Zi是治疗分配(控制/trt 或 0/1)ith主题和Yi是结果(0/1 或否/是)ith主题。

我的问题是ZiYi是分类变量和e^i是连续变量,介于0和1之间。分类变量如何除以连续变量?

3个回答

您似乎有点误解 IPTW 中权重的目的。你是对的,对于二元结果有一个分数值是没有意义的,但这里加权的目标不是为每个人获得一个“校正”的结果值。

相反,您正在创建一个伪总体,其组成是原始总体中的个体,在给定一些协变量的情况下,通过其治疗概率的倒数加权。在伪人群中,这些协变量和治疗之间不再有任何关联(因此没有混杂)。因此,加权的目标是对每个人的平均结果值做出贡献。您现在可以有分数,因为这些是分数贡献,而不是分数结果值。

e^i我相信倾向得分吗?即,概率Zi=1|Xi,因此治疗患者按倾向得分的倒数加权,而对照患者按(1-倾向得分)加权。

为了扩展 Ellie 所说的内容,权重的“反向”部分意味着如果一个受试者在给定其他协变量的情况下接受治疗的可能性较低,那么他们在 IPTW“总体”中获得更多的代表性。如果您的倾向模型是正确的(剧透:它不是),那么 IPTW 估计量是天真的治疗效果估计值(只是治疗组和对照组之间的平均差异),其中样本已被加权以代表总体。

作为健全性检查,如果治疗确实是随机分配的,那么模型化的治疗倾向将大致是样本中治疗单位的比例(不管协变量如何,它们独立于假设治疗)。然后治疗变量和倾向将被抵消,在结果中留下简单的平均差异。