这是这里的一个片段:
考虑一个研究 咖啡饮用(暴露或“干预”)与心肌梗塞(结果)之间关系的试验示例。假设发现了一个关联,但实际上喝咖啡的人比不喝咖啡的人吸烟的多,而且实际上是吸烟与MI相关联。
在这篇文章中,吸烟被称为混杂变量,但我认为这是错误的。
我们不知道吸烟和喝咖啡之间是否存在因果关系。它们只是相关的,就是这样。
所以吸烟只是另一个恰好是心肌梗塞真正原因的变量,它不一定是一个混杂变量。
我对吗?
这是这里的一个片段:
考虑一个研究 咖啡饮用(暴露或“干预”)与心肌梗塞(结果)之间关系的试验示例。假设发现了一个关联,但实际上喝咖啡的人比不喝咖啡的人吸烟的多,而且实际上是吸烟与MI相关联。
在这篇文章中,吸烟被称为混杂变量,但我认为这是错误的。
我们不知道吸烟和喝咖啡之间是否存在因果关系。它们只是相关的,就是这样。
所以吸烟只是另一个恰好是心肌梗塞真正原因的变量,它不一定是一个混杂变量。
我对吗?
在这里,吸烟是混杂因素。
暴露是喝咖啡,结果是心脏病发作。
要成为混杂因素,变量必须是原因,或者是暴露和结果的原因的代理。它不一定是直接原因。
所以在这里,只要有喝咖啡和吸烟之间的相关性就足够了,因为它们有一个共同的原因。
理解混杂和因果推理的最佳方法之一是使用有向无环图(有时称为因果图)。有关基本理论的详细信息,请参阅 Judea Perl 关于因果关系的工作。为了说明,请考虑以下 DAG:
这是由 DAGgity (www.dagitty.net) 制作的,这是一个免费的在线网站,它实现了 DAG 理论,旨在解释混杂并告知最小协变量集以在回归模型中进行调整以获得真正的因果效应。您可能希望单击该图以获取更详细的视图。这里 E 是曝光,D 是结果。A 是 E 和 D 的原因,所以显然 A 是一个混杂因素,并且 DAGgity 在右上角告诉我们,如果我们在回归模型中调整 A,我们可以获得 E 对 D 的真实总因果效应. 重要的是要理解这种情况只是 DAG 是“正确的”(即我们已经包含了所有相关变量和因果关系的方向。
现在,请注意,在左上角,它表示变量 A 已“调整”——这意味着我们已经观察到它。但是,在您问题的特定示例中,我们没有观察到它(我们可能不知道它是什么,只知道它存在),相反,我们观察到了 S(吸烟),现在我们有以下 DAG:
因此,吸烟 (S) 和我们的暴露 (E) 之间没有因果关系,但由于它们具有共同的原因 (A),它们会相互关联。请注意,在左上角,我们将 A 指定为未观察到,而在右上角,DAGgity 告诉我们,我们只需要针对 S(吸烟)进行调整。所以喝咖啡不是“真正的”混杂因素,它是 A 的代理,这是真正的(未观察到的)混杂因素,这可能是这里混乱的核心。
现在,让我们介绍另一个未被观察到的混杂因素 B:
DAGgity 现在告诉我们,我们无法估计真正的因果效应,那是因为由于未观察到的混杂因素 B,我们有残余(混杂)。可悲的是,观察性研究中经常出现这种情况,这就是为什么临床试验被认为是黄金的原因因果关系的标准(这并不是说试验总是完美的。)。这也解释了为什么有时会说相关性是对混杂因素的“不好定义”:吸烟和喝咖啡之间的相关性不仅是由于 A,而是被 B 扭曲了。
总而言之,这个问题与“真正的”混杂因素和“代理”混杂因素有关,以及关于未观察到的变量和因果关系的任何假设(或不做!)。
作为一个技术性稍差的答案,不一定要严格定义和关联什么才是正确的因果关系,什么不是:
“混淆”这个词本身的意思是“将某事误认为/混淆某事”。
因此,一个混淆变量,抛开严格的技术背景,是一个变量[其效果]被误认为是另一个变量。在这种情况下,吸烟的影响没有得到解释,因此被错误地归因于咖啡消费的影响,而事实上,一旦考虑到吸烟,它就没有[直接]影响。因此,吸烟是“混杂变量”。
争论定义通常不会是一种非常富有成果或有用的争论形式,除非讨论明确地“在给定上下文 Y 的情况下,X 的严格定义是什么”。在您引用的段落中,他们根据该示例有效地定义了混淆。您实际上是在说您不同意该定义。没关系。只要您在您的定义被同行理解并且可以使用的上下文中使用它,那么它就是合适的。
可能是在一些更严格的上下文中,有一个更严格的定义,上面的例子不能算作因果关系。但是吸烟作为咖啡对癌症影响的代表是混淆的教科书示例,我想说这就是大多数人理解混淆的意思,即“我们错误地将影响归因于 X,而实际上控制了 Y使 X 的效果消失”。