倾向得分匹配用于在观察性研究中进行因果推断(参见Rosenbaum / Rubin 论文)。它为什么起作用的简单直觉是什么?
换句话说,为什么如果我们确保两组参与治疗的概率相等,混杂效应就消失了,我们可以利用结果得出关于治疗的因果结论?
倾向得分匹配用于在观察性研究中进行因果推断(参见Rosenbaum / Rubin 论文)。它为什么起作用的简单直觉是什么?
换句话说,为什么如果我们确保两组参与治疗的概率相等,混杂效应就消失了,我们可以利用结果得出关于治疗的因果结论?
我会尽量不强调数学,让你有一个直观的理解。
观测数据和由此产生的分析的主要问题是混淆。当一个变量不仅影响分配的治疗而且影响结果时,就会发生混杂。当进行随机实验时,受试者被随机分配到治疗组,因此,平均而言,分配到每个治疗组的受试者在协变量(年龄、种族、性别等)方面应该是相似的。由于这种随机化,结果的差异不太可能(特别是在大样本中)是由于任何协变量造成的,而是由于所应用的治疗,因为平均而言,治疗组中的协变量是相似的。
另一方面,对于观察数据,没有随机机制将受试者分配给治疗。以一项研究为例,与标准外科手术相比,检查新心脏手术后患者的存活率。通常,出于道德原因,不能将患者随机分配到每个程序。结果,患者和医生自行选择其中一种治疗方法,通常是由于与其协变量相关的多种原因。例如,如果您年纪较大,新手术可能会有些风险,因此医生可能会更频繁地向年轻患者推荐新疗法。如果发生这种情况并且您查看存活率,新疗法可能看起来更有效,但这会产生误导,因为年轻患者被分配接受这种治疗,而年轻患者往往活得更长,其他一切都是平等的。这就是倾向得分派上用场的地方。
倾向评分有助于解决因果推理的基本问题——由于受试者接受治疗的非随机性,您可能会产生混淆,这可能是您所看到的“效果”的原因,而不是单独的干预或治疗。如果您能够以某种方式修改您的分析,以便协变量(例如年龄、性别、性别、健康状况)在治疗组之间“平衡”,那么您将有强有力的证据表明结果的差异是由于干预/治疗造成的而不是这些协变量。倾向得分,确定每个受试者在给定一组观察到的协变量的情况下被分配到他们接受的治疗的概率。如果您随后匹配这些概率(倾向得分),
您可能会问为什么不完全匹配协变量(例如,确保将治疗 1 中身体健康的 40 岁男性与治疗 2 中身体健康的 40 岁男性匹配)?这对于大样本和一些协变量来说效果很好,但是当样本量很小并且协变量的数量甚至是中等大小时,这几乎是不可能的(请参阅 Cross-Validated 上的维度诅咒了解为什么会这样) .
现在,说了这么多,倾向得分的致命弱点是假设没有未观察到的混杂因素。该假设表明,您在调整中并未未能包括任何可能成为混杂因素的协变量。直观地说,这背后的原因是,如果您在创建倾向得分时没有包含混杂因素,您如何进行调整?还有其他假设,例如稳定的单位治疗价值假设,该假设指出分配给一个受试者的治疗不会影响其他受试者的潜在结果。
从严格意义上说,倾向得分调整与因果推理的关系并不比回归建模更重要。倾向得分的唯一真正区别在于,与样本量可能允许回归模型合并相比,倾向得分更容易针对更多观察到的潜在混杂因素进行调整。倾向得分调整(在大多数情况下最好通过协变量调整完成,使用 logit PS 中的样条)可以被认为是一种数据缩减技术,其中缩减是沿着一个重要的轴 - 混杂。但是,它不处理结果异质性(易感性偏差),因此即使使用倾向,您也必须调整关键的重要协变量(另请参阅与赔率和风险比的不可折叠性相关的问题)。
倾向得分匹配可以排除许多观察结果,因此效率非常低。我认为任何排除相关观察的方法都是有问题的。匹配的真正问题在于它排除了容易匹配的观察,因为某些感知需要进行 1:1 匹配,并且大多数匹配算法都依赖于观察顺序。
请注意,在进行混杂的标准回归调整时,检查和排除非重叠区域非常容易。倾向得分用户被教导这样做,而回归建模者不这样做的唯一原因是他们没有被教导。
倾向得分分析隐藏了与暴露的任何相互作用,倾向得分匹配还隐藏了 PS 和治疗效果之间的可能关系。
PS 的敏感性(对未测量的混杂因素)分析已经完成,但使用标准回归建模更容易。
如果您使用灵活的回归方法来估计 PS(例如,不假设任何连续变量呈线性作用),您甚至不需要检查平衡 -必须有平衡,否则 PS 回归模型在开始时没有正确指定. 您只需要检查不重叠。这假设倾向模型中没有遗漏重要的交互作用。匹配做出相同的假设。
我建议查看 Mostly Harmless Econometrics - 他们在直观的层面上对此进行了很好的解释。
您要解决的问题是选择偏差。如果一个变量与潜在结果相关并且有接受治疗的可能性,那么如果您发现接受治疗的预期结果优于未治疗的预期结果,这可能是一个虚假的发现,因为接受治疗的人往往有更高的因此具有更高的. 问题出现是因为使与治疗相关。
这个问题可以通过控制来解决. 如果我们认为潜在结果和变量之间的关系是线性的,我们只是通过包括在使用虚拟变量进行回归的治疗中,虚拟变量与. 当然,线性回归是灵活的,因为我们可以包含也是。但是,如果我们不想强加一种功能形式怎么办?然后我们需要使用非参数的方法:匹配。
通过匹配,我们将处理和未处理的观察结果与相似的. 我们从这一点出发,估计了所有人的治疗效果我们已经处理和未处理的观察值(或小范围的值或“桶”)。如果我们没有很多这样的值或桶,特别是如果是一个高维向量,因此很难找到彼此接近的观测值,那么将这个空间投影到一维上会很有帮助。
这就是倾向得分匹配的作用。如果与给予的治疗无关,那么事实证明它们也与给予的治疗不相关在哪里是给予治疗的概率,即倾向得分.
这是你的直觉:如果我们找到一个具有非常相似的倾向得分的观察子样本,那么对于那个子样本,处理组和未处理组与. 每个观察结果都可能被治疗或不治疗;这意味着任何经过处理的观察都同样可能来自任何子样本中的值。自从是决定我们模型中潜在结果的因素,这意味着对于该子样本,潜在结果与治疗无关。这种条件确保了治疗和未治疗之间的子样本平均结果差异是对该子样本的平均治疗效果的一致估计,即
是对局部平均治疗效果的一致估计。
进一步阅读:
它“起作用”的原因与回归“起作用”的原因相同——您正在控制所有混杂因素。
您可以通过一个可能包含许多混杂变量的完全指定的回归模型或只有一个变量的回归模型来完成这种分析控制 - 倾向得分(可能是也可能不是由相同混杂因素组成的同样复杂的模型)。您可以坚持使用此回归与倾向得分,或者您可以比较相似组内的响应,其中相似性由倾向得分定义。在精神上你在做同样的事情,但有些人认为后一种方法更好地突出了手头的因果任务。
更新以下反馈
我解释为什么倾向得分匹配有效背后的直觉的想法是解释倾向得分定理,即