朱迪亚珍珠书中的因果关系问题

机器算法验证 因果关系
2022-03-03 04:38:36

我开始阅读Judea Pearl 等人的统计中的因果推理,A Primer人。我拥有数学硕士学位,但我从未上过统计学课程。我对一个早期的学习问题有点困惑,没有人可以问这个问题,所以我希望这个网站上的人会为我批评我的答案。(这不是作业问题。我是退休人员,只是保持头脑活跃。)请注意,问题中没有给出具体数据。

a) 肾结石有两种治疗方法,治疗 A 和治疗 B。医生更有可能对大(因此更严重)结石开治疗 A,更有可能对小结石开治疗 B。在确定哪种治疗更有效时,不知道结石大小的患者是否应该检查一般人群数据或特定大小的数据?

b) 一个小镇上有两个医生。每个人在他的职业生涯中都进行了 100 次手术,分为两种类型:一种非常简单的手术,一种非常困难的手术。第一位医生进行简单手术的频率远高于困难手术,第二位医生进行困难手术的频率高于简单手术。您需要手术,但您不知道您的情况是容易还是困难。是应该对所有病例咨询每个医生的成功率,还是应该分别咨询易、难病例的成功率,以最大限度地提高手术成功的机会?

至于 a) 部分,可以合理地假设治疗 A 与治疗 B 相比存在缺陷,或者为什么不一直开处方?所以,在我看来,如果不知道肾结石的大小,我就无法做出明智的决定。我希望数据显示治疗 A 对大结石更有效,至少对小结石同样有效,但如果我的结石很小,我不想承担治疗 A 的假定风险。假设小结石几乎总能成功治疗,我希望治疗 B 在一般人群中显示出更高的成功率,但如果我有大结石,我不想采用治疗 B。

在我看来,除非我知道我的石头的大小,否则这些数据毫无用处。这可能是问题的答案吗?整件事似乎毫无意义,因为我不能去药房在柜台购买任何一种治疗方法。我的医生会开处方,如果他不能(或不会)告诉我结石的大小,我会换医生。

至于 b) 部分,很明显您想单独查看程序的费率,但仅靠费率是不够的。假设第一个医生只做了一次困难的手术,结果很成功,第二个医生做了 37 次,成功了 35 次。我非常倾向于选择第二位医生,但我想知道 37 名中的 35 名与国家标准相比如何,以及这两次失败是否发生在他职业生涯的早期(当时他还在学习)或最近(在他开始大量饮酒之后)。

这种讨论是问题所要求的,还是期望得到更简单的答案?如果我有幸让老师阅读此内容,您会如何评价我的答案?

2个回答

首先让我说,如果我给你的问题评分,我会给你一个很好的分数。这些是本书的介绍性问题,所以你仍然没有思考问题的所有工具,但你已经表明你知道你需要考虑因果信息来回答它。

现在关于答案,请注意问题询问您是否要查看聚合数据或分离数据。事实证明,在这两种情况下,您都希望查看隔离数据。

在问题 A 中,结石的大小会影响治疗的选择和健康状况。因此,您需要隔离数据来消除这种偏差并确定哪种治疗更有效,无论是有条件的还是无条件的。要知道哪种治疗无条件更好,您需要分离数据以获得由结石大小概率加权的平均因果效应P(Y=1|do(T))=SP(Y=1|T,S)P(S)P(Y=1|T), 在哪里Y是健康状况,T治疗选择和S石头大小。如果您想知道哪种处理有条件地更好,那么很明显您还需要隔离表。

如果在不知道结石大小的情况下为自己选择一种治疗方法很奇怪,也许更容易理解必须为整个人群选择一种治疗方法的类似问题(比如出于技术/预算原因,您无法选择两个都)。在这种情况下,您想知道哪个对整个人口的平均治疗效果最大。

问题 B 是一个类似的问题,难度是一个混杂因素,所以你需要隔离表来知道哪个医生更好,有条件的和无条件的。您关于样本量的观点是完全正确的,在现实生活中您应该始终考虑样本不确定性——但请注意,它不会改变您仍然需要分离数据信息的事实。

关于你最后的评论,

如果这两次失败发生在他职业生涯的早期(他还在学习的时候)或者最近(他开始大量饮酒之后)。

它实际上触及了因果推理中的一个深层次问题,即不变性假设。以刚才医生开始大量饮酒的情况为例。在这种情况下,该事件之前和之后的数据并非来自同一个因果模型——因此在这种情况下,您实际上需要更多信息和更多因果假设来进行推断。

我读过 Pearl's Causality , 2nd ed (2009) 但不是你在这里提到的 Primer。您似乎以完全正确的心态来处理这些研究问题。您正在引出自己的背景知识,以用基本的因果信息来填写这些场景。您还直接攻击了在我看来对所提出的决策问题的非常不正当的自负,并努力用更有意义和现实的问题来代替它们。