使用与 MatchIt R 包匹配的倾向得分是否可能过度拟合?

机器算法验证 倾向评分 匹配
2022-03-25 00:37:42

我有一个非常大的患者队列,我正在尝试定义病例和对照,同时尽量减少选择偏差。更进一步,我正在使用 Cox 回归来评估特定药物的疗效。这意味着我将计算出缓解的生存时间(稍后会提到)。

根据所讨论的药物,我可能会得到一些可怕的选择偏差。例如,托吡酯用于持续性复发性头痛的患者。随机对照样本不太可能发现疾病负担与托吡酯患者的疾病负担相匹配的病例。

因此,我使用倾向得分匹配来减轻这种担忧。我的匹配协变量(定义病例或对照)是是否存在感兴趣的药物。伴随的协变量是十二个分类变量,每个分类变量代表患者是否患有与感兴趣的疾病相关的特定合并症(例如,高血压与感兴趣的疾病头痛相关)。然后,我有许多连续的协变量:年龄、给定年份的头痛次数、急诊神经病学转诊次数。将这些结合在一起,我可以使用 R MatchIt 包生成我的案例和控件。

我不是贸易统计学家,所以这是我的理解停止并且我的问题开始的地方:

  1. 是否可以使用 MatchIt(倾向得分匹配)包过度/不足匹配?即,协变量太多或协变量太少。

  2. 什么是理解作为 MatchIt 协变量的重要内容的最佳方式是什么?目前,我正在使用临床医生的经验和已发表的与要治疗的疾病相关的合并症。与一组临床医生的圆桌讨论提出了以下建议:查看队列中随机样本的生存时间与 MatchIt 程序中每个协变量的结果之间是否存在任何相关性。例如,

    生存时间 ~ 年龄生存时间 ~ numEmergencyVisits

我不认为这是正确的方法。老实说,根据已发表的合并症和感兴趣的疾病之间的联系来选择 matchIt 协变量就足够了。

我会很感激那些有统计背景的人的想法。

1个回答

首先,我会提醒没有应用统计学背景的人不要执行倾向得分匹配等高级分析。软件的易用性使过程本身看起来很简单,而实际上需要许多考虑因素才能做出有效的推断。我也对非统计学家在非统计期刊上发表的实践指南持怀疑态度,因为这些指南往往侧重于软件的使用,而不是考虑分析的细微差别。我相信您可以找到愿意帮助您实施最佳实践的生物统计学家。

也就是说,您在倾向得分分析中提出了两个主要问题:协变量选择和倾向得分模型的评估。这些都是正在进行的研究的巨大主题。我会给你一些建议和一些文献,可以帮助你做出决定。

关于协变量选择:如果您想要对治疗效果进行无偏估计,则需要在不引入偏倚的情况下消除混杂。为了消除混淆,您需要控制一组足够的变量来阻止从治疗到结果的所有后门路径。后门路径是一种因果路径,涉及治疗分配的常见原因和结果的变化。实质性研究可能具有启发性,但最好尽可能保守,包括尽可能多的相关变量而不引起偏见。您应该包括的变量类型是那些影响结果且不受治疗影响的变量。您还应该包括已知会影响治疗选择和结果变化的变量。不包括可能受治疗影响或影响治疗选择但与结果无关的变量。布鲁克哈特等人。(2006 年)具体讨论了倾向评分模型的变量选择,Elwert(2010 年)讨论了更完整的混杂调整理论。至关重要的是,未能包含相关的混杂变量可能会使您的效果产生偏差,而医学研究可能并未发现所有这些变量,因此我会警告您不要仅仅因为没有医学论文记录混杂关系就排除协变量。先前的研究可以用作证明变量包含必要性的正面证据,但可能没有负面证据可以证明变量排除在外,除非证明它对结果缺乏影响。

关于倾向评分模型的评估:匹配的目标是在相关协变量上的已治疗和未治疗之间建立平衡。您可以通过尝试各种倾向得分模型和匹配算法来产生平衡,或者尝试指定一个合理的倾向得分模型来接近真实倾向得分的建模。在此处查看有关区别的一些讨论这件事在Ho, Imai, King, & Stuart (2007)中有很好的描述. 倾向得分的目标是创造平衡,而不是达到良好的适合度。如果您要尝试解释所使用的倾向得分模型,通常以通常被认为是过度拟合的方式对倾向得分进行建模,而不是确保一个简约且理论上合理的模型。有大量关于评估平衡的文献,其中大部分都在 R 包的文档cobalt和我的答案中进行总结。

估计倾向得分和使用它们的方法有很多,我真的不认为没有这方面专业知识的人应该在没有训练有素的统计学家指导的情况下进行这种分析。无论如何,匹配可能不是(也可能不是)您使用的最佳方法。如果您想尽可能少地思考和决策,我建议您研究因果效应的目标最大似然估计。该包survtmle实现了此方法。无论您做什么,都不要仅仅因为它是您所知道的或其他研究人员使用的方法而选择它,也不要试图在没有统计学家帮助的情况下进行复杂的分析。