辛普森悖论与伯克森悖论

机器算法验证 辛普森悖论
2022-03-26 03:44:31

有人能解释一下两者有什么区别吗?在我看来,它们是相同的。在这两个悖论中,您都从一个狭窄的分布开始,当您转向完整的分布时,您会发现相关性开关。那么实际上有什么区别呢?

当前答案评论:

  • Mickybo Yakari指出伯克森悖论与数据的(潜在错误的)抽样有关。虽然辛普森悖论与抽样风险无关,但与数据分析有关(是否以某些变量为条件)。

  • 积累在选择偏差(伯克森)和分类偏差(辛普森)之间做出了同样的区分,并声称伯克森可以被视为辛普森的一个子集。

  • 诺亚引入了潜在“真理”的概念。在辛普森的理论中,对混杂变量的条件化(或分类)揭示了真相,不这样做就是混杂而在伯克森的对colider变量的调节(或采样)中,隐藏了真相。

4个回答

辛普森悖论和伯克森悖论都是统计现象,其中观察到了惊人的差异,但它们出现的原因不同。让我们用几句话来描述它们并确定它们的不同之处。

辛普森悖论是一种统计现象,其中两个变量之间的趋势发生在几个不同的数据组中,根据条件变量所取的值形成,但当这些组组合时消失或反转。差异存在于基于分解的结论和基于聚合的结论之间,并且不是由数据的任何分区子集中缺少数据引起的,而是由分区子集的相对大小(比例计算问题)引起的。

伯克森悖论源于这样一个事实,即样本的收集方式使得总体中的某些个体(以条件变量为特征)比其​​他个体更不可能被选中。

Pearl, J. (2013),线性模型:因果分析的有用“显微镜”,因果推理杂志,1.1,155-170,

使用图形模型的语言,作者解释说:

选择偏差是与对撞机节点上的条件相关的一般现象的症状[…] 这种现象涉及在观察到它们的共同影响时在两个原因之间引起的虚假关联,因为任何反驳一个原因的信息都应该使另一个原因更有可能。它被称为伯克森悖论 (Berkson, 1946)、“解释” (Kim and Pearl, 1983) 或简称为“对撞机偏差”。

这是有问题的,因为结果可能是,由于条件变量和必然的有偏抽样,样本准确地代表了人口的某个子集,而不是整个人口。

这是一篇附加论文,可进一步加深对这两个悖论的理解:

Pearl, J. (2014),理解辛普森悖论,美国统计学家,1.68, 8-13。

作者指出,辛普森本人注意到,根据数据背后的故事,更明智的(辛普森的话)有时与分类分析兼容,有时与汇总分析兼容。他提供了辛普森的经典例子。

辛普森悖论发生在以变量为条件揭示了真正的关联而未能以变量为条件揭示了错误的关联时。伯克森悖论发生在(不经意间)对变量的条件作用揭示了一个错误的关联,而如果没有条件条件发生,真正的关联就会被揭示出来。

辛普森悖论是由混杂引起的,即两个变量的共同原因的存在。未能以混杂因素为条件会在变量之间产生有偏差的关联,但以混杂因素为条件可以纠正这种偏差。伯克森悖论是由选择引起的,即以两个变量的共同结果为条件,这被称为对撞机对撞机的调节会引起对撞机的原因之间的关联。

辛普森是伯克森的一个子集。假设整体数据呈正相关,分为A组和B组。如果A组呈负相关,那就是伯克森悖论。如果A组和B组都负相关,那就是辛普森的。

此外,对于 Simpson's,必须收集 Set A 和 Set B(否则您不知道两者具有负相关)。使用 Berkson's,只需收集 A 组。因此,一般而言,分类产生的误导性相关性被视为辛普森悖论,而选择偏差导致的相关性被视为伯克森悖论。

当我们查看一些因果 DAG 时,这两个悖论之间的区别就变得很明显了。

辛普森悖论

辛普森悖论是一个关于混淆的谜题[0]。如Judea Pearl 的博客中所述,在 COVID-19 的种族死亡率数据中可以看到这种悖论的最近一个例子悖论:如果我们查看汇总数据,非西班牙裔白人的死亡率更高。但是:按年龄分类的白人在每个年龄组中的死亡率都较低。对应的 DAG: 在此处输入图像描述 为什么会这样?我们想弄清楚关系A种族 ⇒ 来自 COVID 的死亡)。但正如我们从图表中看到的,年龄是这种关系的一个混杂因素,因此查看观测数据 Pr( Death | Race ) 不会给出正确的答案。一旦我们看 Pr(死亡|Race , Age ) 变量Race的效果相反。现在为什么会发生这种情况可能看起来不直观,但正如珀尔在理解辛彭悖论中解释的那样:

(a+b)/(c+d) > 1 并不意味着 a/c 和 b/d > 1。

您应该查看哪些(汇总或分层数据)取决于 CDAG 和研究问题,在《为什么》中有详细解释。

伯克森悖论

伯克森悖论源于对撞机的条件反射。如果它作为研究设计的人工产物发生,例如在参与者选择期间,这可能会显得自相矛盾。

在此处输入图像描述

假设您正在调查感染 COVID 与患有任何其他疾病之间是否存在任何关系。进一步假设在普通人群中,COVID独立于其他疾病现在,如果您的研究仅基于住院患者,您会发现 Pr( COVID |not Other disease ) = 1!毕竟,他们一定是因为什么住院了。住院条件使这两个变量依赖于它们以前不依赖的地方。更具体地说,对碰撞器的调节已经疏通了两个变量之间的因果路径。

所以:辛普森悖论是混杂偏差,伯克森悖论是对撞机偏差。在这两种情况下,查看 DAG 都会带来清晰。

[0] 为什么书 p.202