从统计学的角度来看,可以通过观察性研究使用倾向得分来推断因果关系吗?

机器算法验证 因果关系 倾向评分
2022-01-24 09:11:02

问题:从统计学家(或从业者)的角度来看,是否可以通过观察性研究(而不是实验)使用倾向得分来推断因果关系?

请不要开始一场激烈的战争或狂热的辩论。

背景:在我们的统计博士项目中,我们只通过工作组和一些主题会议触及了因果推理。但是,其他部门(例如 HDFS、社会学)也有一些非常杰出的研究人员正在积极使用它们。

我已经目睹了关于这个问题的一些相当激烈的辩论。我不打算在这里开始。也就是说,您遇到了哪些参考资料?你有什么观点?例如,我听到的一个反对将倾向得分作为因果推断技术的论点是,由于遗漏的变量偏差,人们永远无法推断因果关系——如果你遗漏了一些重要的东西,你就会破坏因果链。这是一个无法解决的问题吗?

免责声明:这个问题可能没有正确的答案——点击 cw 非常酷,但我个人对回复非常感兴趣,并且会很高兴有一些好的参考资料,其中包括真实世界的例子。

4个回答

在一篇旨在促进在流行病学中使用 PS 的文章的开头,Oakes 和 Church (1) 引用了 Hernán 和 Robins 关于流行病学中混杂效应的主张 (2):

你能保证你的观察性研究的结果不受不可测量的混杂因素的影响吗?流行病学家可以提供的唯一答案是“不”。

这不仅是说我们不能确保观察性研究的结果是公正的或无用的(因为,正如@propofol 所说,他们的结果可能对设计 RCT 有用),而且 PS 肯定不会为此提供完整的解决方案问题,或者至少不一定比其他匹配或多变量方法产生更好的结果(参见例如(10))。

倾向得分 (PS) 在结构上是概率而非因果指标。进入倾向评分函数的协变量的选择是确保其可靠性的关键因素,正如已经说过的,它们的弱点主要来自未控制未观察到的混杂因素(这很可能在回顾性或病例对照研究中) . 必须考虑其他因素:(a) 模型错误指定会影响直接效应估计(但实际上并不比 OLS 案例更严重),(b) 协变量水平可能存在缺失数据,(c) PS 确实不能克服已知会影响因果解释的协同效应 (8,9)。

至于参考资料,我发现 Roger Newson 的幻灯片——因果关系、混杂因素和倾向得分——在使用倾向得分的利弊方面相对平衡,并附有真实研究的插图。两年前在医学统计学中也有几篇很好的论文讨论了在观察性研究或环境流行病学中使用倾向评分,我在最后附上了其中的几个(3-6)。但我喜欢 Pearl 的评论 (7),因为它为因果关系问题提供了更大的视角(PS 在第 117 和 130 页进行了讨论)。显然,通过查看应用研究,您会发现更多插图。我想补充一下来自 Andrew Gelman 网站 (11,12) 的 William R Shadish 最近的两篇文章。讨论了倾向得分的使用,但这两篇论文更多地关注观察性研究中的因果推理(以及它如何与随机设置进行比较)。

参考

  1. Oakes, JM 和 Church, TR (2007)。特邀评论:推进流行病学倾向评分方法美国流行病学杂志,165(10),1119-1121。
  2. Hernan MA 和 Robins JM (2006)。因果推理工具:流行病学家的梦想? 流行病学,17,360-72。
  3. 鲁宾,D. (2007)。因果效应的观察性研究的设计与分析:与随机试验的设计相似医学统计,26、20-36。
  4. Shrier, I. (2008)。给编辑的信医学统计,27, 2740–2741。
  5. 珍珠,J. (2009)。对倾向评分方法的备注医学统计,28, 1415–1424。
  6. 斯图尔特,EA (2008)。为使用倾向评分制定实用建议:Peter Austin 对“1996 年至 2003 年间医学文献中倾向评分匹配的批判性评估”的讨论医学统计,27, 2062–2065。
  7. 珍珠,J. (2009)。统计中的因果推理:概述统计调查,3,96-146。
  8. 奥克斯,JM 和约翰逊,PJ(2006 年)。社会流行病学的倾向得分匹配《社会流行病学方法》中,JM Oakes 和 S. Kaufman(编辑),第 364-386 页。乔斯-巴斯。
  9. 霍夫勒,米(2005 年)。基于反事实的因果推理BMC 医学研究方法论,5, 28。
  10. Winkelmayer, WC 和 Kurth, T. (2004)。倾向得分:帮助还是炒作? 肾病透析移植,19(7),1671-1673。
  11. Shadish,WR,Clark,MH 和 Steiner,PM(2008 年)。非随机实验能得出准确的答案吗?比较随机和非随机分配的随机实验JASA,103(484),1334-1356。
  12. Cook, TD, Shadish, WR 和 Wong, VC (2008)。实验和观察性研究产生可比较因果估计的三个条件:研究内比较的新发现政策分析与管理杂志,27(4),724–750。

倾向得分通常用于匹配文献中。倾向评分使用治疗前协变量来估计接受治疗的概率。本质上,回归(只是常规 OLS 或 logit、probit 等)用于计算治疗的倾向得分,因为您的结果和治疗前变量是您的协变量。一旦获得了对倾向得分的良好估计,具有相似倾向得分但接受不同治疗的受试者将相互匹配。治疗效果是这两组之间平均值的差异。

Rosenbaum 和 Rubin (1983) 表明,仅使用倾向评分匹配治疗和对照受试者足以消除治疗效果估计中的所有偏差,这些偏差源于用于构建评分的观察到的治疗前协变量。请注意,此证明需要使用真实的倾向得分,而不是估计值。这种方法的优点是它将多维匹配问题(每个预处理协变量一个)转化为单变量匹配情况——极大的简化。

罗森鲍姆、保罗 R. 和唐纳德 B. 鲁宾。1983. “倾向评分在因果效应观察研究中的核心作用”。生物计量学。70(1):41--55。

只有前瞻性随机试验才能确定因果关系。在观察性研究中,总是有可能出现未测量或未知的协变量,这使得归因因果关系变得不可能。

然而,观察性试验可以提供 x 和 y 之间强烈关联的证据,因此对于生成假设很有用。然后需要通过随机试验来证实这些假设。

这个问题似乎涉及两件真正应该分开考虑的事情。首先是人们是否可以从观察性研究中推断出因果关系,在此之上,您可能会对比 Pearl (2009) 的观点,只要您可以正确地对过程进行建模,他就认为是的,而 @propofol 的观点将找到许多实验学科的盟友,他们可能会分享 Gerber 等人(2004 年)的文章(一篇相当晦涩但仍然很好)中表达的一些想法。其次,假设您确实认为可以从观察数据中推断出因果关系,您可能想知道倾向评分方法是否有用。倾向评分方法包括各种调节策略以及逆倾向加权。Lunceford 和 Davidian (2004) 给出了很好的评论。

不过有点皱纹:倾向得分匹配和加权也用于随机实验的分析,例如,当人们对计算“间接影响”以及存在潜在的非随机损耗或辍学问题感兴趣时(在这种情况下,您所拥有的类似于观察性研究)。

参考

格伯 A 等人。2004.“从观察研究中学习的错觉”。在夏皮罗一世等人,政治研究中的问题和方法,剑桥大学出版社。

Lunceford JK, Davidian M. 2004。“通过估计因果治疗效果的倾向评分进行分层和加权:一项比较研究。” 医学统计学23(19):2937–2960。

Pearl J. 2009。因果关系(第 2 版),剑桥大学出版社。