克服选择偏差的首选方法(特别关注医疗保健领域)?

机器算法验证 回归 多元分析 倾向评分 潜类 选择偏差
2022-04-01 18:48:53

我经常测量行为健康治疗干预对感兴趣的结果的影响。然而,比较不同类型治疗的相对疗效是棘手的——更密集的干预可能表明客户有更严重的问题,其结果将更频繁地出现负面影响。在我正在研究的领域中,随机对照试验通常是不道德的。

你最喜欢解决这种选择偏差的方法是什么——需求水平决定干预类型,但需求水平也在决定结果方面发挥作用?您对常见方法的批评是什么?

我探索过的一些方法(请注意,当我说表示严重性的协变量时,我没有显示“这种治疗是一个人需要的”的神奇变量;这一切都基于理论和观察到/可用的数据,但是只是可能的指标,必须与其他因素一起考虑):

多变量模型,包括病情严重程度的协变量(例如,初步诊断、紧急服务历史等);

倾向得分匹配,预测治疗类型和结果的因素相同(但一次只能检查一种治疗类型);

潜在类别分析(建立可能表明严重性的协变量);

仅在严格定义的组上运行模型(例如,仅在具有一种特定诊断类型的人身上)。

2个回答

在混杂的情况下没有单一的灵丹妙药来估计治疗效果(注意:“选择偏差”可能意味着其他东西)。该领域也没有关于最佳方法的一致意见,并且针对给定问题的最佳方法可能与针对另一个问题的最佳方法不同(两者都不会立即显现)。我的理解是,一些表现最好的方法是“乘法稳健”方法,其中包括目标最小基于损失的估计 (TMLE) 和带有 BART 倾向得分的贝叶斯加性回归树 (BART)。我在这篇文章中用参考资料描述了这些方法

这些方法具有多重稳健性,因为它们对多种形式的错误指定都很稳健(即,即使你对变量之间的关系有一些错误,它们也会给你一个无偏或低误差的估计)。更标准的双重稳健方法是那些让您有两次机会正确指定模型以便对治疗效果进行无偏估计的方法。具有参数结果和倾向评分模型的增强逆概率加权 (AIPW) 就是这样一个例子;如果结果模型或倾向评分模型是正确的,则效果估计是无偏的。乘法稳健方法对这些错误指定是稳健的,而且对协变量与治疗或结果之间关系的函数形式的错误指定也是稳健的。他们通过对这些关系进行灵活的非参数建模来获得此属性。此类方法非常受欢迎,因为它们需要更少的不可测试的假设来获得正确的答案,而倾向得分匹配或回归则需要对函数形式做出强有力的假设。

我会查看年度大西洋因果推理会议竞赛的最佳表现者,因为它们代表了因果推理方法的前沿,并且被证明在各种条件下表现良好。TMLE 和 BART 是表现最好的两个,并且都易于访问和使用。

我不会取消您提到的其他方法,但它们确实需要许多无法轻易评估的假设,或者它们已被证明在许多情况下表现不佳。它们仍然是健康科学的标准,但随着先进方法的研究越来越好、更容易获得,这种情况正在慢慢改变。

我不同意诺亚的回答。我从未听说过贝叶斯加性回归树或有针对性的最小损失估计,所以我无法具体评论这些。涉及加权和倾向评分的方法在流行病学界广为接受。

您还应该考虑工具变量和回归不连续方法。

在前者中,有时您的变量会影响接受治疗的概率,但不会影响结果。例如,McClellan 等人(1994) 指出,一些医院比其他医院更密集地治疗急性心肌梗塞(心脏病发作的花哨术语)(即他们更倾向于使用心导管插入术和血运重建术,而不是我认为的医疗管理)。他们使用差分距离作为他们的工具:对于每个患者,到最近的高导管医院的距离减去到最近的低导管医院的距离是多少?

IV 并非没有不可检验的假设——就像所有的观察方法一样,真的。此外,他们回答的问题与随机试验略有不同。引用麦克莱伦等人

因此,IV 方法非常适合解决以下问题:“例如,将老年人 AMI 后侵入性手术的使用减少四分之一会有什么影响?” 他们没有解决这个问题,“积极治疗特定患者而不是单独使用无创疗法的预期效果是什么?” 对于涉及个体患者治疗的临床决策,后一个问题的答案更有用。对于影响患者群体治疗的政策决策,前者的答案可能更有用。

或者,有时您会遇到这样的情况,即在某种分数上对处于或高于分界点的人进行治疗,而对低于分界线的每个人都拒绝给予治疗。您可以在回归不连续设计中利用它。您可以将刚好高于临界值的人与低于临界值的人进行比较。固有的假设是,因为所有分数都是有误差的,所以刚好高于临界值的人和低于临界值的人非常相似。这也要求参与者没有玩弄分数——这是一个你应该真正考虑的假设。在某些方面,高于或低于分数是一种工具。

问题是可能很难找到仪器,并且您感兴趣的治疗可能不是根据一些分数分配的。