调整倾向得分中的所有内容?

机器算法验证 生存 cox模型 倾向评分 回归策略
2022-03-12 04:07:29

我有一个方法问题,因此没有附加示例数据集。

我打算做一个倾向评分调整的 Cox 回归,旨在检查某种药物是否会降低结果的风险。该研究是观察性的,包括 10,000 人。

数据集包含 60 个变量。我判断其中 25 个可能会影响治疗分配。我永远不会在 Cox 回归中调整所有 25 个变量,但我听说您可以在倾向得分中包含这么多变量作为预测变量,然后在 Cox 回归中只包含倾向得分子类和治疗变量。

(在道具分数调整后不相等的协变量当然必须包含在 Cox 回归中)。

底线,在道具分数中包含这么多预测变量真的很聪明吗?


@Dimitriy V. Masterov 感谢您分享这些重要事实。与考虑其他回归框架的书籍和文章相反,我没有看到任何(阅读 Rosenbaums 的书)关于倾向得分分析中模型选择的指南。虽然标准教科书/评论文章似乎总是建议严格选择变量并保持较低的预测变量数量,但我在道具分数分析中没有看到太多这样的讨论。你写:(1)“理论洞察力、制度知识和良好的研究应该指导选择Xs”. 我同意,但在某些情况下,我们手头有一个变量,但并不真正知道(但有可能)该变量是否会影响治疗分配或结果。例如:我是否应该在旨在调整他汀类药物治疗的道具评分中包括肾功能(以滤过率衡量)。他汀类药物治疗与肾功能无关,我已经包含了一系列会影响他汀类药物治疗的变量。但仍然很想将肾功能包括在内;它可能会调整得更多。现在有人会说它应该被包括在内,因为它会影响结果,但据我们所知,我可以再举一个不影响治疗或结果的变量的例子(例如二元变量城市/农村生活)。但我想包括它,只要它不 t 影响道具得分精度。(2)“包括受治疗影响的 X,无论是事后还是事前预期治疗,都会使假设无效”。我不确定你在这里的意思。但如果我研究他汀类药物对心血管结局的影响,我会将血脂的各种测量值纳入倾向评分。血脂受治疗影响。我想我误解了这个说法。

@statsRus 感谢您分享事实,尤其是您所说的“关于选择输入的说明”。我想我的推理方式和你差不多。

不幸的是,道具得分方法讨论了各种调整策略而不是模型选择策略。也许模型拟合并不重要。如果是这种情况,我会针对可能对结果和治疗分配产生最轻微影响的每个可用变量进行调整。我不是静态学家,但如果模型拟合不重要,那么我想调整所有可能影响治疗分配和结果的变量。这在许多情况下意味着包括将受治疗影响的变量。

此外,有些人建议随后的 Cox 回归应该只包括治疗变量和道具分数子类。而其他人则建议 cox 调整应该包括除了您要调整的所有其他变量之外的道具分数。

4个回答

我个人至少 5 年来一直在问这个问题,因为对我来说,使用观察数据上的倾向得分匹配来估计因果效应是一个“大”的实际问题。这是一个绝妙的问题,并且在统计学与计算机科学界之间存在着微妙的分歧。

根据我的经验,统计学家倾向于将可观察到的输入“扔进厨房水槽”来估计倾向得分,而计算机科学家倾向于支持输入的理论原因(尽管统计学家偶尔会提到理论在证明选择的合理性方面的重要性)倾向得分模型的输入)。我认为,差异源于计算机科学家(尤其是 Judea Pearl)倾向于根据有向无环图来考虑因果关系。当通过有向无环图查看因果关系时,很容易看出您可以使用所谓的“对撞机”变量作为条件,该变量可能会“解锁”后门路径并实际上在您对因果效应的估计中引入偏差。

我的外卖?如果您对影响治疗选择的因素有扎实的理论,请在倾向评分估计中使用它。然后进行敏感性分析以确定您的估计对未观察到的混杂变量的敏感性。如果你几乎没有理论可以指导你,那就扔进“厨房水槽”,然后进行敏感性分析。

关于为倾向评分模型选择输入的注释(这可能很明显,但对于不熟悉从观察数据估计因果效应的其他人来说值得注意):不要控制治疗后变量。也就是说,您希望在治疗前测量倾向评分模型中的输入,并在治疗后测量您的结果。在观察性数据中,这实际上意味着您需要三波数​​据,包括一组详细的协变量基线、在第二波中测量的治疗以及在最后一波中测量的结果。

在缺乏主题知识的情况下,变量的过度包含通常比包含不足的情况要好,并且几乎没有理由进行模型选择来构建 PS。更重要的是建立一个灵活的模型。我的默认方法是对每个连续变量进行样条曲线化而不看P-PS 中变量的值,即我使用灵活的加性逻辑回归模型。

使用 logit PS 进行协变量调整有很多优点。在对非重叠区域进行尽职调查后,我通常会对 PS 的 logit 进行样条化,以将其作为多自由度调整变量。请参阅http://www.citeulike.org/user/harrelfe/article/13340175http://www.citeulike.org/user/harrelfe/article/13265389以及http://www.citeulike.org/中的更多文章用户/harrelfe/标签/倾向得分

您必须确保将可能的强预测变量作为单独的协变量包括在内Y因为 PS 仅用于偏差调整,而不是用于捕获结果异质性。

我怀疑任何导致丢弃可匹配观察或高度依赖数据集顺序的匹配方法。丢弃的观测值对如何估计协变量效应有很多话要说。

理论洞察力、机构知识和该领域的良好研究应该是你关于什么的指南Xs 匹配。没有确定性的变量选择程序可以告诉您选择哪些变量。

以下是一些一般准则。如果满足条件独立假设 (CIA)X包括影响参与和结果的所有变量(不是任何一个,而是两者)。包含X受治疗影响,无论是事后还是事前在预期治疗中,将使假设无效。例如,如果代理人知道疫苗即将到来,他可能会调整他的注射前行为。包括工具——影响参与而不是结果的变量——也是一个坏主意。它们无助于选择偏差,并可能使支持问题急剧恶化。例如,如果鼓励某些人接受治疗,你不想以此为条件。在倾向得分规范中包含不相关的变量会增加方差,因为要么必须从分析中丢弃一些处理过的变量,要么必须多次使用控制单元,或者因为带宽必须增加。总之,厨房水槽的做法是绝对不推荐的。

CIA 不能在没有实验数据或“过度识别”假设的情况下进行测试(如程序前测试或其他虚假安慰剂测试的情况)。如果您有足够的历史数据,我肯定会在您精心策划的集合上尝试后者。


对编辑的回应:
我不能对肾脏发表评论,因为那离我的区域太远了(除了馅饼,我知道一些)。城市似乎是一个变量,通过与前往医院接受治疗和检查相关的费用来影响参与和结果。它可能会发现一些让我们夜不能寐的不可观察的东西。我想到的预期故事是,如果人们知道自己将来会得到治疗,例如通过改变饮食习惯,他们可能会调整自己的行为。

因为倾向得分模型纯粹是预测性的——你对任何系数都不感兴趣——我总是理解它,而不是你可以投入所有影响队列进入和结果的变量。您可以随心所欲地扭曲这些变量——对它们进行平方、对它们进行求根、所有类型的交互等等——只要你提高了模型的预测质量。

从理论上讲,您甚至不必担心预测模型的保留数据,因为您不希望将这些结果推广到您的样本之外(基本上,“过度拟合”的风险不是问题)。最后,您不必将自己局限于逻辑回归;当您对二进制输出进行建模时,您甚至可以使用 GAM 模型——基本上,任何可以提高预测率的方法。

(我必须在@statsRus 的使用点上添加一个相反的注释:根据我的经验,计算机科学家使用所有变量,而统计学家仔细考虑每个变量。我猜不同的工作背景会产生不同的工作习惯。)

至于分数的使用,通常不鼓励将其用作协变量——它的影响较小——当然也不能与用于制作评分变量的变量一起使用。如果在倾向得分中,您对连续变量(例如年龄)进行了分类,则可能会提出一个论点,然后您可能会在模型中包含连续版本,但实际上,不要首先对变量进行分类......

使用分数进行匹配(使用卡尺 - 特别是变量 1:N 匹配)很流行,但我相信最有影响力的技术是反比例处理权重 (IPTW) - 虽然我没有使用过这种方法,我不记得如何有用。

试着看看 Peter C. Austin 在多伦多大学的工作——他写了大量关于倾向得分的论文。 例如,这是一个关于匹配的。