我有一个非常大的患者队列,我正在尝试定义病例和对照,同时尽量减少选择偏差。更进一步,我正在使用 Cox 回归来评估特定药物的疗效。这意味着我将计算出缓解的生存时间(稍后会提到)。
根据所讨论的药物,我可能会得到一些可怕的选择偏差。例如,托吡酯用于持续性复发性头痛的患者。随机对照样本不太可能发现疾病负担与托吡酯患者的疾病负担相匹配的病例。
因此,我使用倾向得分匹配来减轻这种担忧。我的匹配协变量(定义病例或对照)是是否存在感兴趣的药物。伴随的协变量是十二个分类变量,每个分类变量代表患者是否患有与感兴趣的疾病相关的特定合并症(例如,高血压与感兴趣的疾病头痛相关)。然后,我有许多连续的协变量:年龄、给定年份的头痛次数、急诊神经病学转诊次数。将这些结合在一起,我可以使用 R MatchIt 包生成我的案例和控件。
我不是贸易统计学家,所以这是我的理解停止并且我的问题开始的地方:
是否可以使用 MatchIt(倾向得分匹配)包过度/不足匹配?即,协变量太多或协变量太少。
什么是理解作为 MatchIt 协变量的重要内容的最佳方式是什么?目前,我正在使用临床医生的经验和已发表的与要治疗的疾病相关的合并症。与一组临床医生的圆桌讨论提出了以下建议:查看队列中随机样本的生存时间与 MatchIt 程序中每个协变量的结果之间是否存在任何相关性。例如,
生存时间 ~ 年龄生存时间 ~ numEmergencyVisits
我不认为这是正确的方法。老实说,根据已发表的合并症和感兴趣的疾病之间的联系来选择 matchIt 协变量就足够了。
我会很感激那些有统计背景的人的想法。