考虑随机变量和的以下联合分布:
直觉上,
- 如果我知道 A,我可以很好地预测 B(98% 的准确率!)
- 但是如果我知道B,我就不能说A
问题:
- 我们能说A导致B吗?
- 如果是,那么得出 A 导致 B 的数学方法是什么?
谢谢你!(并为可能“幼稚”的问题道歉)
考虑随机变量和的以下联合分布:
直觉上,
问题:
谢谢你!(并为可能“幼稚”的问题道歉)
我们能说A导致B吗?
不,这(大概)是一项简单的观察性研究。为了推断因果关系,有必要(但不一定足够)进行实验或对照试验。
仅仅因为你能够做出好的预测并不能说明因果关系。如果我观察携带打火机的人数,这将预测被诊断为癌症的人数,但这并不意味着携带打火机会导致癌症。
编辑:要解决评论中的要点之一:
但现在我想知道:没有相关性,是否会有因果关系?
是的。这可以通过多种方式发生。最容易证明的一个是因果关系不是线性的。例如:
> X <- 1:20
> Y <- 21*X - X^2
> cor(X,Y)
[1] 0
显然Y
是由 引起的X
,但相关性为零。
前面的两个答案都很好,但我想再深入探讨一下这个问题。所以我们知道相关性不是因果关系,但相关性也不是非因果关系。所以我们什么时候才能说相关性就是因果关系。不幸的是,数据本身永远无法告诉我们这一点,我们只能通过对数据进行假设来达到这一点。
简单示例: 我将使用有向无环图 (DAG),因为它们以图形方式对假设进行编码。让我们关注三个变量:、和(您可以将其扩展到更多,但基本概念保持不变)。是一些我们没有机会收集的变量。DAG 中的每个箭头表示因果关系,箭头的方向表示是什么导致了什么。对于三个变量(以及排序限制),以下是一些可能的 DAG,它们将导致和之间的相关性:
相关性仅在编号为 1、2 和 3 的 DAG 中是因果关系;这需要求助于外部知识(尽管 3 很棘手,因为和的共同原因,可以将关系从真正的因果方向翻转,例如在现实中具有保护使它看起来有害)。
确定相关性是否与因果关系一致的一种方法是我们是否进行了随机实验。如果我们没有根据进行随机化,并且随机化之后测量了,那么我们知道从到和到的箭头是不可信的。因此,我们可以说相关是因果。和的主题有一些主题知识,说没有共同的原因(在现实中不太可能,但这只是一个例子),同样我们可以说相关性是因果关系。
重要的是,用于声称相关性是因果关系的假设得到了外部知识的支持。如何以及究竟需要什么外部知识是一个重要问题。
结论: 有多种框架和正式假设可用于断言某种相关性是因果关系。关键部分是数据本身不能告诉你相关性是否是因果关系。为了区分非因果相关性和因果相关性,必须应用一些外部假设或程序。
旁白: 至于我的一个有因果关系但没有相关性的场景示例,DAG 被假定为忠实的。这基本上意味着没有完美的抵消发生(所有单个因果效应都不会完美抵消以导致没有平均因果效应)。正因为如此,声称没有相关性意味着没有因果关系有点棘手。
不,您不能说 A导致B。您拥有的表格仅描述了 A 和 B 之间的关联。即使您知道 A 在很大一部分时间里准确预测了 B,但这并不意味着 A 导致 B。实际上,可能,是因为 A 导致其他一些与 B 高度相关的混杂变量 C 的出现。
预测意味着熵减少。也就是说,如果 A 预测 B,则 B 的分布的熵大于以 A 为条件的分布 B 的熵。
预测是对称的。如果 A 预测 B,则 B 预测 A(除非退化情况)。
因果关系不是对称的。因果关系是指两个事件之间的不对称关系。因此,预测并不意味着因果关系。
在您介绍的情况下,A 和 B 不会相互预测。虽然给定 A 的 B 的熵很低,但在不知道 A 的情况下它也一样低。