无因果关系

机器算法验证 相关性 因果关系 达格
2022-03-13 05:15:27

我知道著名的表述“相关并不意味着因果”。在 DAG 中,这种情况可能看起来像

XUY

这里虽然XY没有因果关系,混杂因素的存在U引起它们之间的相关性。

我也知道两个因果相关的变量可能是不相关的,因为相关性是关联的线性度量。例如,之间的相关性XYY=X20

在反事实形式因果推理的背景下,我的问题是:如果之间没有畅通的路径XY, 会期望两者之间存在非零相关性XY在无限样本限制中?我知道在有限样本中,虚假的相关性可能只是由于偶然性而出现,但渐近地,如果两个变量之间没有开放的因果路径,我们是否有可能期望非零相关性,或者实际上,任何测量关联是积极的,他们之间?

简而言之:两个d分离变量能否具有预期的非零相关性?答案应使用反事实因果推理形式。

2个回答

不。

需要注意的是,嵌入在 DAG 中的直接因果关系是信念(或至少是信念的前提),因此一个人执行的反事实正式因果分析是以DAG 为真为前提的,那么您的问题就涉及到这种效用推理,因为在这个世界观中,相关性只能在给定从一个变量到另一个变量的路径的d分离的情况下进行因果解释。如果一组变量(例如,L) 足以将路径AY(说,Y作为推定的效果,和A作为推定的原因Y), 然后:

  • 一个人推断出cor(Y,A|L)0作为证据A原因Y(这是非标准符号……我熟悉的人通常会写类似P(Y=1|A=0,L)P(Y=1|A=1,L)0对于水平L而不是专门谈论相关性……可能是因为DAG 和从中得出的推论是非参数的,但 Pearson 的相关性是线性的,而 Spearman 的相关性是单调的),并且
  • 一推断cor(Y,A|L)=0作为证据A不会导致Y.

这就是这种因果分析的重点。(这也是为什么它通过将分析的批评专门用于构建L和 DAG。)

除了,有点(但仍然不是)。

回到关于体现信仰的 DAG 的警告。对于任何给定的分析,这些信念可能或多或少是有效的。事实上,您提供的 DAG 说明了一个很好的理由:我们可能想象的大多数变量(无论是否适合L,Y, 或者A在我上面的命名法中)本身是由其他一些变量引起的……可能是一组未测量的先验原因中的一个变量U. 这就是为什么来自观察研究的因果推论的有效性总是受到无法测量的后门混杂的威胁(即这种质量是我们所说的“观察研究”的一部分),以及为什么随机对照试验具有特殊的价值(甚至尽管来自随机对照试验的因果推论与观察性研究设计一样容易受到选择偏倚的威胁)。

在对 Mir Henglin 问题的评论中的链接中提供了许多关于“因果关系不相关”的变量和过程之间存在相关性的好例子。我会争辩说,而不是伪造我不合格的“不”。在我的回答开始时,这些仅表明 DAG 实际上并未扩展到涵盖所有起作用的因果变量:因果信念集是不完整的(例如,请参阅Pearl 关于将隐藏变量合并到 DAG 中的观点)。@whuber 还提出了以下重要评论:

关键是,实际上任何两个过程,即使它们完全相互独立(因果关系和概率),随着时间的推移经历类似的确定性变化,都将具有非零相关性。如果这就是你所说的“混淆”的意思,那就这样吧——但似乎没有涉及到一个新问题。

在反事实的正式因果推理中,对于时间作为因果变量的适当性存在不同的解释。我要指出:

  • DAG 形式主义仅对变量的定性时间顺序是明确的,但
  • DAG对时间的定量长度保持沉默。

因此,有理由认为时间长度可以作为反事实形式因果推理中的混淆变量。

结果是重复我的开场白:以 DAG 为条件为 true,那么如果从AYd分离的,那么A不能导致Y如果cor(Y,A|L)=0.

简而言之:两个 d 分离变量能否具有预期的非零相关性?

不,这是不可能的。

更准确地说:d-分离向我们保证,在 DAGG, 如果两个变量XY由一组变量 d 分隔Z这暗示着XY是独立的条件Z. 注意Z也可以是空集。现在,您谈论的是“相关性”而不是“条件相关性”,但是您也谈论了 d-speration。据此,我认为您使用的两个 d 分隔变量适用于Z=空集。因此,人口中不会出现相关性或任何类型的统计关联。

例如在你的 DAG

XUY

XYd-分离给定U

而且你写

例如,之间的相关性XYY=X20

我猜你脑子里有这个想法,但这个说法一般来说是不正确的。确实如果X有分布U[0,1]这种相关性是>0.