因果阶梯中第二级和第三级之间的差异

机器算法验证 因果关系
2022-01-17 23:01:43

在 Judea Pearl 的“为什么之书”中,他谈到了他所谓的因果阶梯,它本质上是一个由不同层次的因果推理组成的层次结构。最低的关注于观察数据中的关联模式(例如,相关性、条件概率等),下一个关注于干预(如果我们故意以某种预先指定的方式改变数据生成过程会发生什么?),第三个是反事实(如果某件事发生或没有发生,在另一个可能的世界中会发生什么)?

我不明白的是二阶和三阶有何不同。如果我们问一个反事实的问题,我们不只是问一个关于干预的问题,以否定 观察到的世界的某些方面吗?

2个回答

现实世界与介入层面的利益行动之间不存在矛盾。例如,直到今天吸烟和从明天开始被迫戒烟并不矛盾,即使你可以说一个“否定”另一个。但是现在想象一下下面的场景。你知道乔,一个终生吸烟的肺癌患者,你想知道:如果乔三十年不吸烟,他今天会健康吗?在这种情况下,我们在同一时间与同一个人打交道,想象一个行动和结果与已知事实直接矛盾的场景。

因此,干预和反事实的主要区别在于,在干预中,您要问的是,如果您执行某项行动,平均会发生什么,而在反事实中,您要问的是,如果您在特定情况下采取了不同的行动,会发生什么,假设你有关于实际发生的事情的信息。请注意,由于您已经知道现实世界中发生了什么,因此您需要根据观察到的证据更新有关过去的信息。

这两种类型的查询在数学上是不同的,因为它们需要回答不同级别的信息(反事实需要更多信息来回答),甚至需要更复杂的语言来表达!

有了回答梯级 3 问题所需的信息,您就可以回答梯级 2 问题,但反之则不行。更准确地说,你不能仅仅用干预信息来回答反事实问题。CV 中已经给出了干预和反事实冲突发生的示例,请参阅这篇文章这篇文章但是,为了完整起见,我也将在此处包含一个示例。

下面的例子可以在因果关系第 1.4.4 节中找到。

假设您进行了一项随机实验,其中患者被随机分配 (50% / 50%) 到治疗 ( ) 和控制条件 ( ),治疗组和对照组都有 50% 恢复 ( ) ) 和 50% 的人死亡 ( )。x=1x=0y=0y=1P(y|x)=0.5   x,y

实验结果告诉你,干预的平均因果效应为零。这是一个梯级 2 的问题,P(Y=1|do(X=1))P(Y=1|do(X=0)=0

但是现在让我们问一个问题:那些在治疗中死亡的患者如果不接受治疗,有多少百分比可以康复? 从数学上讲,您要计算P(Y0=0|X=1,Y=1)

仅凭您拥有的介入性数据无法回答这个问题。证明很简单:我可以创建两个不同的因果模型,它们具有相同的干预分布,但具有不同的反事实分布。两者提供如下:

在此处输入图像描述

在这里,相当于解释患者对治疗的反应的未观察到的因素。例如,您可以考虑解释治疗异质性的因素。注意两个模型的边际分布是一致的。UP(y,x)

请注意,在第一个模型中,没有人受到治疗的影响,因此那些因治疗而死亡的患者如果不接受治疗本可以康复的百分比为零。

然而,在第二个模型中,每个患者都受到治疗的影响,并且我们有两个群体的混合,其中平均因果效应结果为零。在此示例中,反事实数量现在变为 100% —— 在模型 2 中,所有在治疗中死亡的患者如果不接受治疗,将会康复。

因此,第 2 级和第 3 级有明显的区别。如示例所示,您不能仅用有关干预的信息和假设来回答反事实问题。计算反事实的三个步骤可以清楚地说明这一点:

  1. 步骤 1(溯因):根据观察到的证据的概率P(u)P(u|e)
  2. 第 2 步(动作):执行模型中的动作(例如do(x))
  3. 第 3 步(预测):在修改后的模型中预测Y

如果没有一些关于因果模型的功能信息,或者没有一些关于潜在变量的信息,这将不可能计算出来。

这是 Judea Pearl在推特上给出的答案:

读者问:为什么干预(Rung-2)与反事实(Rung-3)不同?干预不是否定了观察到的世界的某些方面吗?

答。干预改变但不与观察到的世界相矛盾,因为干预之前和之后的世界需要时间不同的变量。相反,“如果我死了”与已知事实相矛盾。有关最近的讨论,请参阅此讨论

备注:哈佛的#causalinference 组和鲁宾的潜在结果框架都没有区分 Rung-2 和 Rung-3。

我相信,这是一种根植于文化的阻力,将来会得到纠正。它源于“好像随机”隐喻中两个框架的起源,而不是#Bookofwhy 的物理“聆听”隐喻