混杂因素能否隐藏可能的因果关系?(而不是找到一个虚假的)

机器算法验证 因果关系 混杂 虚假相关 遗漏变量偏差
2022-01-26 13:13:10

我是一个有统计数据的菜鸟,我很难理解这一点:

  • 众所周知,混杂因素会导致虚假关联,从而拒绝真正的零假设(即由于混杂因素 Z,我可以得出结论,X 和 Y 之间存在因果关系,而没有因果关系)
  • 问题是:反之亦然吗?即混杂因素会导致无法拒绝错误的零假设吗?(即以某种方式“掩盖”一个可能存在的因果关系。)如果是,那将是一个令人信服的例子吗?
3个回答

是的

改写混杂因素的反义词:当有一个关系时,一个未观察到的变量绝对有可能产生没有关系的印象


混杂通常是指未观察到的变量产生错觉的情况,即两个变量之间没有关系:

混杂

这是遗漏变量偏差的一个特例,它更普遍地指的是未观察到的变量对观察到的关系产生偏差的任何情况:

OVB

很容易想象这样一种情况,这会对估计产生取消影响:

罗泽罗

(我为说明写了,但未观察到的关系不一定是线性的。)ρ=0

您可以将这种现象称为遗漏变量偏差、消除或掩蔽。混杂通常是指第一张图中所示的那种因果关系。

在现有答案之后,我想举一个具体的例子。想象一下试图弄清楚油门踏板是否会影响汽车的速度。您观察油门踏板踩下的距离和汽车在不同时间行驶的速度,但没有发现相关性,因此我们得出结论,它们之间没有因果关系。然而,我们缺少的是汽车在上坡和下坡的过程中,当汽车缓慢上坡时,经常需要加油。如果我们知道道路的坡度,我们就可以控制它并找到真正的因果关系。

这是 Frans 答案的最后一个图表的示例。

如果您尝试将油门踏板与加速而不是速度相关联,则此示例会更加清晰。汽车的总加速度为(gas pedal) - (hill slope). 假设您打开了巡航控制,那么巡航控制将尝试将加速度保持在零附近。因此,气体将被设置为抵消山坡的坡度,并且与加速度完全无关(这将由巡航控制尚未补偿的坡度变化主导)。

首先,我认为您正在混合使用“相关”和“因果关系”。它们是不同的东西。讨论差异,以及如何找到“因果关系”,需要我们付出很多努力。

在这里,我只会回答混淆变量是否可以隐藏相关性。


是的,这是一个直观的示例(数据由 R 中的 ,​​ 生成y = c(runif(100), runif(100)+2)x = seq_along(y)

我们有 x、y 和组变量。组信息表示为点的颜色。

  • 如果我们不知道组/使用所有数据建立回归模型,我们可以说,x 和 y 是正相关的。
  • 如果我们使用组信息/在每个组上建立一个回归模型。我们会说 x 和 y 几乎没有相关性。

在此处输入图像描述