在我看来,考虑匹配而不是回归有两个相关的原因。第一个是关于功能形式的假设,第二个是向你的听众证明功能形式假设不会影响结果估计。第一个是统计问题,第二个是认知问题。考虑下面的故事,它试图说明匹配和回归之间的选择如何发挥作用。
我们假设您已经测量了足够的调整集来满足后门标准(即,所有相关的混杂因素都已测量),没有测量错误或缺失数据,并且您的目标是估计治疗的边际治疗效果结果。我们还将假设积极性和 SUTVA 的标准假设成立。我们将首先考虑持续的结果,但大部分讨论都延伸到一般结果。
第 1 部分:回归
您决定对治疗和混杂因素的结果进行回归,以控制这些变量的混杂,因为这是线性回归应该做的。然而,效果估计只有在极其严格的情况下才无偏。首先,治疗效果在混杂因素的水平上是恒定的,其次,线性模型描述了结果和混杂因素之间的条件关系。首先,您可能包括治疗和每个混杂因素之间的相互作用,在估计边际效应的同时允许异质治疗效应。这等价于 g-computation (1),
这仍然假设治疗和控制结果的线性模型。好的,我们将改用随机森林等灵活的机器学习方法。好吧,现在我们不能声称我们的估计器是无偏的,只有可能是一致的,它仍然需要特定的机器学习模型以一定的速度接近真相。好的,我们将使用 Superlearner (2),这是一种堆叠方法,它采用其包含的最快模型的收敛速度。好吧,现在我们没有办法进行推理,模型可能仍然是错误的。好的,我们将使用半参数高效双稳健估计器,如增强逆概率加权 (AIPW) (3) 或目标最小基于损失的估计 (TMLE) (4)。好吧,只有当真正的模型属于 Donsker 模型类时,这才是一致的。好的,我们
伟大的。您已经将回归带到了极端,尽可能多地放宽假设并使用具有普遍良好推理属性的多重鲁棒估计器(多重鲁棒的意思是,如果许多模型之一是正确的,则估计器是一致的)(但它可以自举,因此使方差完全正确并不是一个大问题)。我们解决了因果推理吗?
您使用 Superlearner 提交交叉拟合 TMLE 估计的结果,以获得倾向得分和潜在结果模型,并使用包含高度自适应套索和许多其他模型的完整库,在弱假设下,这些都是真正一致的估计器所需的全部以参数速率收敛。
一位审稿人读了这篇论文后说:“我不相信这个模型的结果。”
“为什么不?” 你说。“我使用了具有最佳属性的最优估计器;它是一致的和半参数有效的,对模型的功能形式的假设很少(如果有的话)。”
“你的估计是一致的,”审稿人说,“但不是无偏的。这意味着我只能相信它的一般结果,并且随着 N 趋于无穷大。我怎么知道你已经成功地消除了这个数据集中效应估计中的偏差? "
“……”
第 2 部分:匹配救援
您阅读了一种名为“倾向得分匹配”的热门新方法 (6)。它在 1983 年很重要,即使在 2021 年,你几乎可以在专业医学期刊上发表的每篇论文中看到它。您会看到 King 和 Nielsen 的有影响力的论文“Why Propensity Scores shall not be used for Matching”(7) 和 Noah 的回答在 CV 上描述了使用倾向得分匹配的许多缺点。好的,您将改用遗传匹配 (8),并最小化样本之间的能量距离 (9),包括灵活估计的倾向得分作为要匹配的协变量。您发现可以通过使用实质性知识结合精确匹配和卡尺约束来改善平衡,这些约束优先考虑对结果很重要的协变量的平衡。您决定使用完全匹配来放宽 1:1 匹配的要求,以便在分析中包含更多单元 (10)。
您使用对治疗和协变量的结果进行简单线性回归来估计治疗效果,包括回归中的匹配权重,并使用聚类稳健标准误差来解释配对成员资格 (11)。您重新提交完全匹配分析的结果,使用精确匹配和卡尺对预测重要变量以及使用协变量上的遗传匹配和灵活估计的倾向得分进行估计的距离矩阵进行估计。
审稿人阅读您的新手稿。“哇,你学到了很多东西。但我仍然不相信你已经消除了效果估计中的偏差。”
“看看余额表,”你说。“协变量分布几乎相同。”
“我看到低标准化平均差异,”评论者说,“但协变量分布的其他特征可能仍然存在不平衡。”
“查看附录中的平衡表,其中包含成对交互的平衡统计、每个协变量的 5 次方多项式,以及用于比较完整协变量分布的 Kolmogorov-Smirnov 统计。样本之间没有有意义的差异,也没有由于精确匹配的约束和卡尺,在最高度预测的协变量上完全不同。”
“我懂了...”
“此外,我使用了 Branson 的随机化检验 (12),以能量距离作为平衡统计量,以表明我的样本不仅比使用相同数据的假设随机试验,而且比块随机试验甚至协变量更平衡平衡约束的随机试验。”
“哇,我想我也没什么好说的了……”
“我的结果回归估计量不仅一致,而且在这个样本中确实没有偏差。此外,因为我将配对成员纳入分析,我的标准误差更小、更准确,结果估计对未观察到的混杂不太敏感* (13 )。”
“我得到它!”
第 3 部分:批评
弗兰克哈雷尔冲进房间。“等等,通过在匹配中丢弃这么多单位,你已经丢弃了这么多有用的数据,并且不必要地降低了你的精度。” 马克·范德兰紧随其后。“等等,通过使用实质性的‘专业知识’,你不会让分析方法在数据中找到研究人员可能无法发现的真实模式,而且你的估计器不会以已知的速率收敛,更不用说参数了!而且没有保证你的推论是有效的!” 我,你谦逊的叙述者,也加入了狗堆。“等等,通过使用精确匹配的约束条件和卡尺,您已经将您的估计值从 ATE 或任何先验可描述的估计值中移开 (14)!您的效果估计值可能是无偏的,但对什么没有偏倚?”
你站在那里,不知所措,被打败了,自从你在 CrossValidated 上问了几年前的简单问题后,你感觉自己一无所获,更接近于理解是否应该使用匹配或回归来估计因果效应。
窗帘关闭。
第 4 部分:结语
面对不确定性和稀缺性,我们不得不做出权衡。在基于回归的方法和匹配来估计因果效应之间的选择取决于您和您的受众如何选择管理这些权衡并优先考虑每种方法的优缺点。
标准回归需要强大的函数形式假设,但使用先进的方法,可以放宽这些假设,代价是放弃偏见并专注于一致性和渐近推理。许多这些先进的方法在大样本中效果最好,并且在此过程中仍然需要许多选择(例如,使用哪个特定的估计器,在 Superlearner 库中包含哪些机器学习方法,使用多少折叠进行交叉验证和交叉拟合等)。尽管乘法鲁棒方法可以保证一般数据的一致性和快速收敛速度,但目前尚不清楚如何评估它们消除数据集中偏差的效果如何,这可能会让人们怀疑它们在一个实例中的实际性能。
匹配方法需要很少的函数形式假设,因为不需要模型(例如,当使用不完全依赖于倾向得分的距离矩阵时,例如由遗传匹配产生的)。您可以通过调整匹配规范来控制混杂,将更多精力集中在难以平衡或预测重要的变量上。您可以通过确保实现协变量平衡来接近保证公正性,这可以而且应该在怀疑者的情况下进行极其广泛的衡量。您可以使用工具来分析随机试验和具有更强大和稳健设计的试验。这可能会通过丢弃大量数据来降低您的精度,改变您的估计,这样您的效果估计就不会推广到有意义的人群,并且不是
优势匹配优于回归,以及为什么我认为它如此有价值以及我将研究生培训用于理解和改进匹配以及应用研究人员作为 R 包的作者使用它的原因cobalt
,,WeightIt
MatchIt
等,是认知优势。通过匹配,您可以更有效地让读者相信您所做的事情是值得信赖的,并且您已经考虑了对观察结果的所有可能反对意见,并且至少可以指出具体假设并解释它们的违反可能如何影响结果。这一切都集中在协变量平衡上,即跨治疗组的协变量分布之间的相似性。通过广泛地报告平衡并将生成的匹配数据提交给一系列测试和平衡测量,您可以让自己和您的读者相信,由此产生的效果估计是无偏的,因此是值得信赖的(考虑到开头提到的假设,尽管这些假设可能很脆弱, 匹配和回归都不能解决这个问题)。
然而,并不是每个人都同意这种优势如此重要,或者比一致性和有效的渐近推理更重要。在这个问题上永远不可能达成共识,因为共识需要知道真相,而科学(包括统计研究)是关于寻找本质上不可知的真相(即,支配或描述我们世界的真实参数)。也就是说,如果我们知道真正的因果效应,我们就可以知道估计它的最佳方法,但我们不知道,所以我们不能。我们只能利用我们拥有的知识尽力而为,并尽可能地管理固有的约束和权衡,因为我们使用宇宙向我们展示的精确光点在黑暗中摸索。
*仅在对匹配样本使用特殊推理方法时。
- 斯诺登 JM、罗斯 S、莫蒂默 KM。在模拟数据集上实现 G 计算:因果推理技术的演示。我是流行病学杂志。2011;173(7):731–738。
- 范德兰 MJ、波利 EC、哈伯德 AE。超级学习者。遗传学和分子生物学中的统计应用[电子文章]。2007 年;6(1)。(https://www.degruyter.com/view/j/sagmb.2007.6.issue-1/sagmb.2007.6.1.1309/sagmb.2007.6.1.1309.xml)。(2019 年 10 月 8 日访问)
- 丹尼尔 RM。双重鲁棒性。在:Wiley StatsRef:在线统计参考。美国癌症协会;2018(2018 年 11 月 9 日访问):1-14。(http://onlinelibrary.wiley.com/doi/abs/10.1002/9781118445112.stat08068)。(2018 年 11 月 9 日访问)
- 格鲁伯 S,范德兰 MJ。目标最大似然估计:简要介绍。2009 年;17。
- Zivich PN, Breskin A. 因果推理的机器学习:关于交叉拟合估计器的使用。流行病学。2021;32(3):393–401。
- 罗森鲍姆公关,鲁宾 DB。倾向评分在因果效应的观察性研究中的核心作用。生物计量学。1983;70(1):41-55。
- King G,Nielsen R. 为什么不应使用倾向得分进行匹配。政治。肛门。2019;1-20。
- 钻石 A,Sekhon JS。用于估计因果效应的遗传匹配:在观察性研究中实现平衡的通用多元匹配方法。经济与统计评论。2013;95(3):932–945。
- Huling JD, Mak S. 协变量分布的能量平衡。arXiv:2004.13962 [stat] [电子文章]。2020;(http://arxiv.org/abs/2004.13962)。(2020 年 12 月 22 日访问)
- 斯图尔特 EA,格林 KM。使用完全匹配来估计非实验研究中的因果效应:检查青少年大麻使用与成人结果之间的关系。发展心理学。2008;44(2):395–406。
- Abadie A, Spiess J. 稳健的匹配后推理。美国统计协会杂志。2020;0(ja):1-37。
- Branson Z. 设计和分析匹配数据集时评估协变量平衡的随机化测试。观察性研究。2021 年;7:44–80。
- Zubizarreta JR、Paredes RD、Rosenbaum PR。在一项关于智利营利性和非营利性高中有效性的观察性研究中,平衡匹配,异质性配对。应用统计年鉴。2014;8(1):204-231。
- Greifer N,斯图尔特 EA。在观察性研究中匹配或加权时选择估计值。arXiv:2106.10577 [stat] [电子文章]。2021;(http://arxiv.org/abs/2106.10577)。(2021 年 9 月 17 日访问)