因果关系如何在数学上定义?
两个随机变量之间因果关系的数学定义是什么?
在数学上,因果模型由变量之间的函数关系组成。例如,考虑下面的结构方程组:
这意味着在功能上确定的值(如果您干预这会更改的值),但反之则不然。在图形上,这通常由表示,这意味着进入 y 的结构方程。作为附录,您还可以根据反事实变量的联合分布来表达因果模型,这在数学上等同于函数模型。
给定一个来自两个随机变量 X 和 Y 的联合分布的样本,我们什么时候会说 X 导致 Y?
有时(或大多数时候)你不知道结构方程、的形状,甚至不知道还是。您拥有的唯一信息是联合概率分布(或来自该分布的样本)。
这就引出了你的问题:我什么时候可以仅从数据中恢复因果关系的方向?或者,更准确地说,我什么时候可以仅从数据中恢复是否进入的结构方程,反之亦然?
当然,如果没有关于因果模型的任何根本上不可检验的假设,这是不可能的。问题是几个不同的因果模型可能需要观察变量的相同联合概率分布。最常见的例子是具有高斯噪声的因果线性系统。
但在一些因果假设下,这可能是可能的——这就是因果发现文献所研究的。如果您之前没有接触过这个主题,您可能想从Peters、Janzing 和 Scholkopf 的Elements of Causal Inference以及Judea Pearl的 Causality 第 2 章开始。我们在这里有一个关于 CV 的主题,用于参考因果发现,但我们还没有列出那么多参考资料。
因此,您的问题不仅仅是一个答案,因为它取决于一个人所做的假设。您提到的论文引用了一些示例,例如假设具有非高斯噪声的线性模型。这种情况被称为LINGAN(线性非高斯无环模型的缩写),下面是一个示例R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
请注意,这里我们有一个具有非高斯噪声的线性因果模型,其中导致,而 lingam 正确地恢复了因果方向。但是,请注意,这在很大程度上取决于LINGAM 假设。
对于您引用的论文,他们做出了这个特定的假设(参见他们的“假设”):
如果,则机制映射 X 到 Y 的最小描述长度与 X 的值无关,而机制映射 Y 到 X 的最小描述长度取决于 Y 的值。
请注意,这是一个假设。这就是我们所说的他们的“识别条件”。施加了限制。也就是说,假设说如果某些限制在数据中成立,如果其他限制成立。这些类型的限制具有可测试的含义(对施加约束)是允许人们从观测数据中定向恢复的原因。
最后,因果发现的结果仍然非常有限,并且依赖于强假设,在将这些应用于现实世界时要小心。
有多种方法可以将因果关系形式化(这与几个世纪以来关于因果关系的重大哲学分歧一致)。一个流行的是潜在的结果。潜在结果方法,称为鲁宾因果模型,假设对于每种因果状态,都有一个不同的随机变量。因此,如果受试者服用研究药物,可能是随机变量。因果效应是和之间的差异。如果实际上,我们可以说治疗没有效果。否则,我们可以说治疗条件导致了结果。
变量之间的因果关系也可以用有向无环图来表示,它具有非常不同的风格,但在数学上与鲁宾模型等效(Wasserman,2004 年,第 17.8 节)。
Wasserman, L. (2004)。所有的统计:统计推断的简明课程。纽约,纽约:斯普林格。国际标准书号 978-0-387-40272-7。
有两种方法可以确定是否是的原因。第一个是标准的,而第二个是我自己的主张。
- 存在对的干预,使得的值发生变化
干预是对变量的外科手术改变,不会影响它所依赖的变量。干预已经在结构方程和因果图模型中严格形式化,但据我所知,没有独立于特定模型类的定义。
- 的模拟需要
为了使这一点变得严谨,需要在和上形成一个模型,特别是定义如何模拟的语义。
在现代的因果关系方法中,干预被视为定义因果关系的原始对象(定义 1)。然而,在我看来,干预是模拟动力学的反映,并且必然与模拟动力学相一致。