过度匹配偏差和混杂变量

机器算法验证 流行病学 偏见 混杂 匹配
2022-03-26 12:04:19

据我了解,匹配是在观察性研究中识别因果关系的一种方法。通过匹配“相似”的观察结果并比较接受或未接受治疗的观察结果,您可以将其视为某种准实验。

什么是超配?它引入了什么样的偏见?我主要从经济学的角度看到匹配,但最近看到一些关于流行病学的论文表明“过度匹配”会导致偏见。我发现很难理解论文的术语,如果有人能帮助解释一些主要概念,我将不胜感激。以下是引用该想法的文章:

过度匹配会导致偏差。英国医学杂志。2002年8月10日;325(7359)

2个回答

来自Rothman、Greenland 和 Lash 的现代流行病学第 3 版

至少存在三种形式的过度匹配。第一种是指损害统计效率的匹配,例如对与暴露但与疾病无关的变量进行病例对照匹配。第二种是指损害有效性的匹配,例如在暴露和疾病之间的中间物上进行匹配。第三是指损害成本效益的匹配。

AndyW 的回答是关于第二种形式的过度匹配。简而言之,它们都是这样工作的:

1:为了成为混杂因素,标准之一是协变量与结果暴露相关。如果它只与其中一个相关联,那它就不是一个混杂因素,你所做的只是扩大了你的置信区间。

为了进一步探索这种类型的过度匹配,请考虑对二元暴露进行匹配的病例对照研究,其中一个对照与一个或多个混杂因素的每个病例匹配。除非可以组合某些层,否则分析中的每个层将由一个案例和一个控制组成。如果案例及其匹配的控制要么都暴露或都未暴露,则 2 x 2 表的一个边距将为 0……这样一对受试者不会为分析提供任何信息。如果对暴露的相关性进行分层,则会增加此类表格出现的机会,因此往往会增加分层分析中丢失的信息。

2:AndyW 对此进行了部分讨论。匹配中间因素会使您的估计产生偏差,匹配受暴露和结果影响的事物也会产生偏差。这本质上是对对撞机的控制,任何这样做的技术都会使您的估计产生偏差。

然而,如果潜在匹配因子受暴露影响,而该因子又影响疾病(即,是一个中间变量),或者同时受暴露和疾病影响,那么对因子的匹配将使粗略效应和调整后效应都产生偏差估计。在这些情况下,病例对照匹配只不过是一种无法弥补的选择偏差。

3:这更像是一个研究设计问题。由于原因 1 和 2 对您不需要匹配的变量进行广泛匹配可能会导致您拒绝容易获得的控制(朋友、家人、附近的社交网络等),而支持更难获得可以在不必要的协变量集。这需要花钱——本可以花在更多主题、更好的暴露或疾病确定等方面的钱,却没有明显地提高偏见或精确度,而且确实威胁到了两者。

虽然我也对“过度匹配”术语一无所知,但我在经济和统计术语中听到的相同想法的一个例子可能是匹配“中间”结果。请参阅 Andrew Gelman 关于该主题的帖子

这与您引用的文章开头描述的问题相同(Marsh et al., 2002

如果暴露本身导致混杂因素,或者与它具有同等地位,那么按混杂因素分层也会按暴露分层,暴露与疾病的关系将变得模糊。这被称为过度匹配...

格尔曼在“生儿子会让你更保守”一文中给出了一个概念上清晰的例子。简单来说(没有例子),只是你的因果方向倒退了。