如何解决辛普森悖论?

机器算法验证 辛普森悖论
2022-01-19 18:39:21

辛普森悖论是全球统计入门课程中讨论的经典难题。然而,我的课程满足于简单地指出存在问题并且没有提供解决方案。我想知道如何解决这个悖论。也就是说,当面对辛普森悖论时,两种不同的选择似乎根据数据的分区方式竞争最佳选择,应该选择哪个选择?

为了使问题具体化,让我们考虑相关 Wikipedia 文章中给出的第一个示例。它基于一项关于肾结石治疗的真实研究。

在此处输入图像描述

假设我是一名医生,一项测试显示患者患有肾结石。仅使用表中提供的信息,我想确定我应该采用治疗 A 还是治疗 B。似乎如果我知道结石的大小,那么我们应该首选治疗 A。但如果我们不知道,那么我们应该更喜欢治疗B。

但是考虑另一种可能的方式来得出答案。如果石头大,我们应该选择A,如果它小,我们应该再次选择A。所以即使我们不知道石头的大小,通过案例的方法,我们看到我们应该更喜欢A。这与我们之前的推理相矛盾。

所以:一个病人走进我的办公室。一项测试显示他们有肾结石,但没有给我关于他们大小的信息。我推荐哪种治疗方法?这个问题是否有任何公认的解决方案?

维基百科暗示使用“因果贝叶斯网络”和“后门”测试的解决方案,但我不知道这些是什么。

4个回答

我有一个讨论辛普森悖论的先前答案:基本辛普森悖论它可以帮助您阅读以更好地理解该现象。

简而言之,辛普森悖论的发生是因为混淆。在你的例子中,治疗很混乱* 与每位患者的肾结石类型有关。我们从提供的完整结果表中知道,治疗 A 总是更好。因此,医生应该选择治疗 A。治疗 B 总体上看起来更好的唯一原因是它更频繁地给予病情较轻的患者,而治疗 A 给予病情更严重的患者。尽管如此,治疗 A 在两种情况下的表现都更好。作为一名医生,你并不关心过去对病情较轻的患者给予更差的治疗,你只关心你面前的病人,如果你想让那个病人好转,你会提供他们得到最好的治疗。

*请注意,进行实验和随机化处理的目的是创造一种处理混淆的情况。如果所讨论的研究是一项实验,我会说随机化过程未能创建公平的群体,尽管它很可能是一项观察性研究——我不知道。

在您的问题中,您说您不知道“因果贝叶斯网络”和“后门测试”是什么。

假设你有一个因果贝叶斯网络。也就是说,一个有向无环图,其节点代表命题,其有向边代表潜在的因果关系。对于每个假设,您可能有许多这样的网络。有三种方法可以对边的强度或存在提出令人信服的论点。A?B

最简单的方法是干预。这就是其他答案在说“适当的随机化”可以解决问题时所暗示的。您随机强制具有不同的值并测量如果你能做到这一点,你就完成了,但你不能总是那样做。在您的示例中,对致命疾病进行无效治疗可能是不道德的,或者他们可能在治疗中有发言权,例如,当他们的肾结石较小且疼痛较小时,他们可能会选择较不苛刻的(治疗 B)。AB

第二种方法是前门方法。您想证明通过作用于,即如果您假设可能由引起但没有其他原因,并且您可以测量相关,并且相关,那么您可以得出结论,证据必须通过流动。原始示例: 是吸烟,是癌症,ABCACBCACABCCABC是焦油堆积。焦油只能来自吸烟,它与吸烟和癌症有关。因此,吸烟通过焦油导致癌症(尽管可能有其他因果途径可以减轻这种影响)。

第三种方式是后门方式。您想证明由于“后门”而不相关,例如常见原因,即由于您假设了一个因果模型,因此您只需要阻止证据可以从向上流动到的所有路径(通过观察变量并对其进行调节) 。阻止这些路径有点棘手,但 Pearl 提供了一个清晰的算法,让您知道必须观察哪些变量才能阻止这些路径。ABADBAB

gung 是对的,只要有良好的随机性,混杂因素就无关紧要了。由于我们假设不允许对假设原因(治疗)进行干预,因此假设原因(治疗)和结果(生存)之间的任何常见原因,例如年龄或肾结石大小,都将是一个混杂因素。解决方案是采取正确的措施来阻止所有的后门。如需进一步阅读,请参阅:

珍珠,朱迪亚。“实证研究的因果图”。Biometrika 82.4 (1995): 669-688。


要将其应用于您的问题,让我们首先绘制因果图。(治疗前)肾结石大小和治疗类型都是成功的原因。 如果其他医生根据肾结石大小分配治疗可能是之间没有其他因果关系之后,所以它不可能是它的原因。同样出现在之后。XYZXYXYZYXZXY

由于是常见原因,因此应该对其进行测量。 由实验者决定变量的范围和潜在的因果关系对于每个实验,实验者测量必要的“后门变量”,然后计算每个变量配置的治疗成功的边际概率分布。对于新患者,您测量变量并遵循边际分布指示的治疗。如果您无法测量所有内容,或者您​​没有大量数据但对关系的架构有所了解,则可以在网络上进行“信念传播”(贝叶斯推理)。X

Judea Pearl于 2013 年发表的这篇精彩文章正好解决了在面对辛普森悖论时选择哪个选项的问题:

理解辛普森悖论 (PDF)

你想要解决一个例子还是一般的悖论?后者没有,因为悖论可能因不止一个原因而出现,需要逐案评估。

这个悖论主要在报告摘要数据时存在问题,并且对于培训个人如何分析和报告数据至关重要。我们不希望研究人员报告隐藏或混淆数据模式的汇总统计数据,或者数据分析师无法识别数据中的真实模式是什么。没有给出解决方案,因为没有一个解决方案。

在这种特殊情况下,有桌子的医生显然总是会选择 A 并忽略摘要行。他们是否知道石头的大小没有区别。如果分析数据的人只报告了为 A 和 B 提供的摘要行,那么就会出现问题,因为医生收到的数据不会反映现实。在这种情况下,他们可能也应该将最后一行从表格中删除,因为它仅在对汇总统计应该是什么的一种解释下是正确的(有两种可能)。让读者解释单个单元格通常会产生正确的结果。

(您的大量评论似乎表明您最关心不等 N 问题,而 Simpson 比这更广泛,所以我不愿意进一步讨论不等 N 问题。也许问一个更有针对性的问题。此外,您似乎认为我我主张归一化结论。我不是。我认为您需要考虑汇总统计量是相对任意选择的,并且某些分析师的选择引起了悖论。我进一步认为您查看您的细胞有。)