辛普森悖论和伯克森悖论都是统计现象,其中观察到了惊人的差异,但它们出现的原因不同。让我们用几句话来描述它们并确定它们的不同之处。
辛普森悖论是一种统计现象,其中两个变量之间的趋势发生在几个不同的数据组中,根据条件变量所取的值形成,但当这些组组合时消失或反转。差异存在于基于分解的结论和基于聚合的结论之间,并且不是由数据的任何分区子集中缺少数据引起的,而是由分区子集的相对大小(比例计算问题)引起的。
伯克森悖论源于这样一个事实,即样本的收集方式使得总体中的某些个体(以条件变量为特征)比其他个体更不可能被选中。
在
Pearl, J. (2013),线性模型:因果分析的有用“显微镜”,因果推理杂志,1.1,155-170,
使用图形模型的语言,作者解释说:
选择偏差是与对撞机节点上的条件相关的一般现象的症状[…] 这种现象涉及在观察到它们的共同影响时在两个原因之间引起的虚假关联,因为任何反驳一个原因的信息都应该使另一个原因更有可能。它被称为伯克森悖论 (Berkson, 1946)、“解释” (Kim and Pearl, 1983) 或简称为“对撞机偏差”。
这是有问题的,因为结果可能是,由于条件变量和必然的有偏抽样,样本准确地代表了人口的某个子集,而不是整个人口。
这是一篇附加论文,可进一步加深对这两个悖论的理解:
Pearl, J. (2014),理解辛普森悖论,美国统计学家,1.68, 8-13。
作者指出,辛普森本人注意到,根据数据背后的故事,更明智的(辛普森的话)有时与分类分析兼容,有时与汇总分析兼容。他提供了辛普森的经典例子。