我有一个方法问题,因此没有附加示例数据集。
我打算做一个倾向评分调整的 Cox 回归,旨在检查某种药物是否会降低结果的风险。该研究是观察性的,包括 10,000 人。
数据集包含 60 个变量。我判断其中 25 个可能会影响治疗分配。我永远不会在 Cox 回归中调整所有 25 个变量,但我听说您可以在倾向得分中包含这么多变量作为预测变量,然后在 Cox 回归中只包含倾向得分子类和治疗变量。
(在道具分数调整后不相等的协变量当然必须包含在 Cox 回归中)。
底线,在道具分数中包含这么多预测变量真的很聪明吗?
@Dimitriy V. Masterov 感谢您分享这些重要事实。与考虑其他回归框架的书籍和文章相反,我没有看到任何(阅读 Rosenbaums 的书)关于倾向得分分析中模型选择的指南。虽然标准教科书/评论文章似乎总是建议严格选择变量并保持较低的预测变量数量,但我在道具分数分析中没有看到太多这样的讨论。你写:(1)“理论洞察力、制度知识和良好的研究应该指导选择Xs”. 我同意,但在某些情况下,我们手头有一个变量,但并不真正知道(但有可能)该变量是否会影响治疗分配或结果。例如:我是否应该在旨在调整他汀类药物治疗的道具评分中包括肾功能(以滤过率衡量)。他汀类药物治疗与肾功能无关,我已经包含了一系列会影响他汀类药物治疗的变量。但仍然很想将肾功能包括在内;它可能会调整得更多。现在有人会说它应该被包括在内,因为它会影响结果,但据我们所知,我可以再举一个不影响治疗或结果的变量的例子(例如二元变量城市/农村生活)。但我想包括它,只要它不 t 影响道具得分精度。(2)“包括受治疗影响的 X,无论是事后还是事前预期治疗,都会使假设无效”。我不确定你在这里的意思。但如果我研究他汀类药物对心血管结局的影响,我会将血脂的各种测量值纳入倾向评分。血脂受治疗影响。我想我误解了这个说法。
@statsRus 感谢您分享事实,尤其是您所说的“关于选择输入的说明”。我想我的推理方式和你差不多。
不幸的是,道具得分方法讨论了各种调整策略而不是模型选择策略。也许模型拟合并不重要。如果是这种情况,我会针对可能对结果和治疗分配产生最轻微影响的每个可用变量进行调整。我不是静态学家,但如果模型拟合不重要,那么我想调整所有可能影响治疗分配和结果的变量。这在许多情况下意味着包括将受治疗影响的变量。
此外,有些人建议随后的 Cox 回归应该只包括治疗变量和道具分数子类。而其他人则建议 cox 调整应该包括除了您要调整的所有其他变量之外的道具分数。