如果“相关性不暗示因果关系”,那么如果我发现统计上显着的相关性,我如何证明因果关系?

机器算法验证 相关性 数理统计 因果关系
2022-01-31 02:23:55

我明白相关性不是因果关系假设我们得到两个变量之间的高度相关性。你如何检查这种相关性是否真的是因为因果关系?或者,究竟在什么条件下,我们可以使用实验数据来推断两个或多个变量之间的因果关系?

4个回答

两个变量相关的一个很可能的原因是它们的变化与第三个变量相关联。其他可能的原因是机会(如果您测试足够多的非相关变量的相关性,有些会显示相关性),或者涉及多个步骤的非常复杂的机制。

有关以下示例,请参见http://tylervigen.com/ :

在此处输入图像描述

为了自信地陈述 A -> B 的因果关系,您需要一个可以控制变量 A 并且不影响其他变量的实验。然后,如果您更改变量,则测量 A 和 B 的相关性是否仍然存在。

对于几乎所有的实际应用,几乎不可能不影响其他(通常是未知的)变量,因此我们能做的最好的事情就是证明不存在因果关系。

为了能够陈述因果关系,您首先假设 2 个变量具有因果关系,然后使用实验来反驳该假设,如果您失败了,您可以在一定程度上确定该假设是正确的。您需要多高的确定性取决于您的研究领域。

在许多领域中,通常或有必要并行运行实验的 2 个部分,一个是变量 A 发生变化的部分,一个是变量 A 未更改的对照组,但实验在其他方面完全相同 - 例如,如果药物你仍然用针刺受试者或让他们吞下药丸。如果实验显示 A 和 B 之间存在相关性,但 A 和 B'(对照组的 B)之间没有相关性,则可以假设因果关系。

如果一个实验是不可能的,或者由于各种原因(道德、伦理、公关、成本、时间)而不可取,还有其他方法可以得出因果关系。一种常见的方法是使用扣除。举个评论的例子:为了证明吸烟会导致人类癌症,我们可以通过一个实验来证明吸烟会导致小鼠癌症,然后证明吸烟与人类癌症之间存在相关性,并推断因此它是极吸烟可能会导致人类癌症——如果我们也反驳癌症导致吸烟,这一证据可以得到加强。得出因果关系的另一种方法是排除相关性的其他原因,将因果关系作为对相关性的最佳剩余解释——这种方法并不总是适用,因为有时不可能消除相关性的所有可能原因(在另一个答案中称为“后门路径”)。在吸烟/癌症的例子中,我们可能可以使用这种方法来证明吸烟是导致肺部焦油的原因,因为没有那么多可能的来源。

从科学的角度来看,这些“证明”因果关系的其他方法并不总是理想的,因为它们不像更简单的实验那样具有决定性。全球变暖辩论是一个很好的例子,它展示了如何更容易地消除尚未通过可重复实验最终证明的因果关系。

对于喜剧救济,这里有一个实验的例子,它在技术上是合理的,但由于非科学原因(道德、伦理、公关、成本)而不可取:

图片取自 phroyd.tumblr.com

无论设计是实验性的还是观察性的,如果 A 和 Y 之间没有开放的后门路径,变量 A 和结果 Y 之间的关联反映了 A 和 Y 之间的因果关系。

在实验设计中,这最容易通过暴露或治疗分配的随机化来实现。除非是理想的随机化,否则关联治疗效果是在可交换性(治疗分配与反事实结果无关)、积极性等假设下对因果治疗效果的无偏估计......

参考

埃尔南,罗宾斯。因果推理
珍珠。统计中的因果推理:概述

PS 您可以搜索因果推理和以下名称(开头)以获取有关该主题的更多信息:Judea Pearl、Donald Rubin、Miguil Hernan。

如果 A 和 B 相关,并且在排除巧合之后,很可能是 A 导致 B,或 B 导致 A,或者某个可能未知的原因 X 导致 A 和 B。

第一步是检查可能的机制。你能想到 A 怎么可能会导致 B,反之亦然,或者 X 可能导致两者的其他原因是什么?(这是假设这种检查比进行试图证明原因的实验便宜)。希望您最终处于一个显示因果关系的实验看起来值得的位置。如果你想不出一个机制,可以继续(A 导致 B,但我们不知道为什么会这样)。

在那个实验中,您需要能够随意操纵可疑的原因(例如,如果原因是“服用药丸 A”,那么有些人会得到药丸,而其他人不会)。然后你采取通常的预防措施,随机选择服用或不服用避孕药的人,你和被测试的人都不知道谁服用了避孕药,谁没有服用。您还尝试保持实验的其余部分相同(将药片 A 给在温暖的房间里,阳光透过窗户照进来的人,而另一组在肮脏、不舒服的房间里得到假药片,这可能会影响您的数据)。因此,如果您得出结论,唯一的区别是那颗药丸,而获得或不吃药丸的原因是一个随机决定,不会影响其他任何事情,

考虑离婚率的增加,与律师收入的增加相关。

直觉上,这些指标应该是相关的,这似乎很明显。更多的夫妇(需求)提出更多的离婚申请,因此更多的律师(供应)提高了他们的价格。

似乎离婚率的增加会导致律师收入的增加,因为夫妻的额外需求导致律师提高了价格。

或者,这是倒退吗?如果律师们故意独立抬高价格,然后把新的收入花在离婚广告上怎么办?这似乎也是一个合理的解释。

这个场景说明了统计分析可以展示的任意数量的第三个解释变量。考虑以下:

  1. 您无法测量每个数据点,
  2. 您想消除每个非解释性数据点,
  3. 如果你测量它,你只能证明为什么要消除一个数据点。

你有一个难题。你不能测量每个数据点,如果你想证明忽略非解释性数据点是合理的,你需要测量它们。(您可以消除一些数据点而不测量它们,但您至少需要证明它们的合理性。)

在无界系统中,没有任何因果关系证明是正确的。