根据 M. Katz 在他的《多变量分析》一书中(第 1.2 节,第 6 页),“混杂因素与风险因素相关,并且与结果有因果关系。 ”为什么混杂因素必须与结果有因果关系?混杂因素与结果相关联就足够了吗?
混杂因素 - 定义
为什么混杂因素必须与结果有因果关系?混杂因素与结果相关联就足够了吗?
不,这还不够。
让我们从您可以拥有一个与结果和治疗相关的变量开始的情况开始,但控制它会使您的估计产生偏差。
例如,考虑下面的因果图, 取自 Pearl,其中是一个预处理对撞机:
在这种情况下,没有混淆,您可以直接估计 X 对 Y 的影响。
但是请注意,Z 与治疗和结果都相关。但它仍然不是一个混杂因素。事实上,如果你在这种情况下控制 Z,你的估计就会有偏差。这种情况称为 M-bias(由于图结构)。
另一个类似的,更直接的,你不应该控制的情况是当变量是两种处理的结果时和结果. 以这个简单的对撞机图为例:
在这里,Z 再次与 X 和 Y 相关联,但它不是联合创始人。你不应该控制它。
现在,值得注意的是,即使变量与结果有因果关系,它也不一定是混杂因素。
让我们以调解员为例,在下面的简单图表中:
如果你想测量 D 对 Y 的总影响,你不应该控制影响影响的因素——在这种情况下是 M。也就是说,M 与 Y 有因果关系,但它不是关于D 对 Y 的总影响。
但是请注意,定义混淆比定义什么是混淆要容易得多。要更严格地讨论confouder的定义,您可能需要阅读 VanderWeele 和 Shpitser 的这篇论文。
为什么会这样?因为这里的主要概念是混杂本身,而不是混杂。对于你的研究问题,你应该问自己“我怎样才能消除混淆?” 而不是“这个变量是一个混杂因素吗?”。
最后一点,值得一提的是,这些误解仍然普遍存在。只是为了说明,从 2016 年的一篇论文中引用这个引文:
在没有随机实验或强准实验设计的情况下进行因果推断需要对预测治疗和结果的所有治疗前变量(也称为混杂协变量)进行适当调节。
正如我们在前面的示例中所示,这是不正确的。混杂因素并不是“预测治疗和结果的所有治疗前变量”。控制所有这些可能不是消除混淆所必需的,甚至可能会使您的结果产生偏差。珍珠在这里对混淆有一个很好的概述。