相关性并不意味着因果关系;但是当变量之一是时间时呢?

机器算法验证 相关性 数理统计 因果关系
2022-02-12 12:55:39

我知道这个问题已经被问了十亿次了,所以,在网上看了之后,我完全相信两个变量之间的相关性并不意味着因果关系。在我今天的一个统计讲座中,我们有一位物理学家的客座讲座,关于统计方法在物理学中的重要性。他发表了令人震惊的声明:

相关性并不意味着因果关系,除非变量之一是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也意味着因果关系。

我以前从未听说过这种说法。物理学家/相对主义者对“因果关系”的看法与统计学家不同吗?

4个回答

我将提供另一个答案,因为我认为目前提供的答案错过了物理学家所做陈述的重要一点。引用的声明是:

“相关性并不意味着因果关系,除非其中一个变量是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也意味着因果关系。”

物理学家并没有说:

“如果 X 和 Y 相关,并且 X 在 Y 之前,那么相关意味着因果关系。”

那是不正确的。物理学家说的

“如果 X 和时间相关,那么这种相关性意味着时间的增加会导致X 的增加(或减少)。”

一个例子可能是熵。如果我们在时间流逝和熵增加之间有很强的相关性,那么我们可以说时间增加会导致熵增加。请注意,这忽略了熵增加的物理原因可能是什么(粒子衰变、宇宙膨胀等)。

因果关系的传统要求之一是时间进展,即如果 X 出现在 Y 之前,X 只能导致 Y。但如果您的变量之一是时间,那么时间进展已经构建到关系中(如果存在关系)。

编辑:根据各种评论,我将添加以下内容。我认为物理学家可能在这里对“因果关系”一词使用了不同的想法。他似乎是在说,如果自变量和时间之间存在相关性,您可以得出结论,自变量会随着时间的推移而发生可预测的变化。有些人可能会说这些变化是随着时间的推移而“引起”的,这并不是统计学家真正使用“原因”或“因果关系”这两个词的方式,因此可能会引起一些混乱。

我们不知道物理学家的意思。接下来是两种不同的解释。


并与相关意味着导致的说法是错误的。即使之前依赖是不够的例如,都可以由其他变量引起:或者,可能会出现更复杂的模式:其中被观察到。现在XYYXYXYXYXYWXWYXVZWYZXY是相互依赖的,没有共同的原因,但两者都不是另一个原因。

但是,时间优先级极大地简化了断言因果关系的条件,您可以在 Pearl 的因果书第 2.7 章“因果关系的局部标准”中找到这些条件。

如果存在第三个变量和上下文 ,变量有因果影响,两者都发生在之前,例如:XYZSX

  1. (Z⊥̸YS) ;
  2. (ZYSX)

本质上,(1) 暗示的潜在原因,并且 (2) 暗示能够打破这种关系,这只有在导致时才会发生。ZYXXY

这种情况比珀尔对没有时间信息的真正原因的定义要简单得多。


其他一些答案中概述的另一种可能性是物理学家的意思是,如果是时间的流逝并且它与相关,那么会导致这个陈述是正确的,但是空洞的,因为时间的流逝是所有其他变量的原因,我的意思是因果图形结构是这样的。因果图结构是一组关于给定观察和干预的独立关系的主张。XYXY

我推测您的客座讲师的意思是,在物理学中,唯一能在复制中幸存下来的相关性是那些存在潜在因果关系的相关性。时间变量是一个例外,因为它是唯一不受物理学家控制的变量。这就是为什么。

在物理学中,我们通常处理可重复的现象和实验。事实上,几乎可以肯定的是,任何实验都是可重复的,并且可以在以后由您或其他研究人员复制。因此,假设您观察一个样本,其中是对感兴趣变量和自变量的观察。正如我上面提到的,我们完全控制变量,并且可以将它们设置为我们希望的任何值。yi,xkixkxk

你的物理学家说,在这个设置中你不会看到任何相关除非有因果关系。为什么?因为其他人甚至您自己都会使用的任何组合和序列重复实验,并且只有具有因果关系的相关性才能在实验的重复中幸存下来。一旦您在所有可能的实验组合中收集到足够的数据,所有其他(虚假)相关性就会消失。Corr[y,xk]xkj

这种情况与社会科学和一些你不能做实验的商业应用形成鲜明对比。你只观察一个国家的 GDP 序列,不能在其他条件相同的情况下改变失业率并观察相关性。

现在,时间是物理学家无法控制的唯一变量。2017 年 1 月 1 日只有一个。他不能重复这一天。他可以重复任何其他变量,但不能重复时间。这就是为什么当谈到时间(不是流逝的时间或年龄)时,物理学家和其他人在同一条船上:相关性并不意味着他的因果关系。

我以前没有听说过这个,根据我熟悉的因果关系概念(尽管我不是物理学家) ,它不会是真的。

通常,要使引起必须在时间上先于因此,如果之前,则无论任何相关性如何,它都不能由此外,之前不是因果关系的充分条件(也不管任何相关性)。XYXYYXXXY