通过选择聚合数据来解决辛普森悖论的示例

机器算法验证 模型选择 辛普森悖论
2022-01-31 02:25:55

关于解决辛普森悖论的大多数建议是,如果没有更多上下文,您无法确定聚合数据或分组数据是否最有意义。

然而,我看到的大多数例子都表明分组是一个混淆因素,最好考虑分组。

例如,在如何解决辛普森悖论中,讨论了经典的肾结石数据集,普遍认为在解释中考虑肾结石大小组并选择治疗 A 更有意义。

我正在努力寻找或想到一个应该忽略分组的好例子。

这是来自 R 的 datasauRus 包的辛普森悖论数据集的散点图,带有线性回归趋势线。 带有线性回归趋势线的散点图,展示了辛普森悖论

我可以很容易地想到 , 的标签x将使这个数据集成为对每个组进行建模最有意义的数据集。例如,ygroup

  • x: 每月看电视的时间
  • y: 考试成绩
  • group: 年龄,其中 A 到 E 是 11 到 16 岁

在这种情况下,对整个数据集进行建模使其看起来看更多电视与更高的考试成绩相关。分别对每个组进行建模显示,年龄较大的孩子得分较高,但看电视越多得分越低。后一种解释对我来说听起来更合理。

我读了珍珠,朱迪亚。“实证研究的因果图”。Biometrika 82.4 (1995): 669-688。它包含一个因果图,其中建议您不应该以 Z 为条件。

治疗、血压和恢复的因果图

如果我正确理解了这一点,如果整个数据集模型中的解释变量导致潜在/分组变量发生变化,那么聚合数据模型是“最佳”模型。

我仍在努力阐明一个合理的现实示例。

如何在散点图中标记xy和以制作应忽略分组的数据集?group


这有点转移注意力,但要回答 Richard Erickson 关于分层模型的问题:

这是数据集的代码

library(datasauRus)
library(dplyr)
simpsons_paradox <- datasauRus::simpsons_paradox %>%
  filter(dataset == "simpson_2") %>%
  mutate(group = cut(x + y, c(0, 55, 80, 120, 145, 200), labels = LETTERS[1:5])) %>%
  select(- dataset)

整个数据集的线性回归

lm(y ~ x, data = simpsons_paradox)

给出x1.75 的系数。

包括组的线性回归

lm(y ~ x + group, data = simpsons_paradox)

给出x-0.82 的系数。

混合效应模型

library(lme4)
lmer(y ~ x + (1 | group), data = simpsons_paradox)

也给出了x-0.82 的系数。因此,如果您不担心置信区间或组内/组间的变化,那么仅使用简单的线性回归并没有太大的好处。

我倾向于 abalter 的解释,即“如果组足够重要,可以考虑将其包含在模型中,并且您知道该组,那么您也可以实际包含它并获得更好的预测”。

4个回答

由于组的数量以及几乎没有无法解释的变化这一事实,很难找到一个与该示例非常相似的示例。

真正的两组:

  • 饮食中维生素 A 含量较高(或血液中维生素 A 含量较高)的吸烟者患肺癌的风险较低,且呈剂量依赖性。
  • 两项大型随机试验(CARETATBC)表明,给吸烟者服用高剂量维生素会增加他们患癌症的风险
  • 在癌症试验中,血液中的维生素 A 与癌症风险之间的有利关系仍然存在于各组中[我没有参考;很多年前我在课堂上被告知]

因此,聚合关系与组内关系的方向相反,并且(似乎是)因果关系是聚合关系。

我可以想到一个热门的例子。如果我们从整体上看城市,我们会在人口密集的城市看到更多的冠状病毒感染和死亡。很明显,密度产生相互作用产生感染产生死亡,是吗?

如果我们在城市内部看,这不成立。在城市内部,通常密度较高的地区人均感染和死亡人数较少。

是什么赋予了?简单:人口密度确实会增加总体感染率,但在许多城市,人口密度最高的地区比较富裕,而这些地区的健康问题未得到解决的人较少。在这里,每个影响都是因果关系:密度会增加任何 SIR 模型的感染,但未解决的健康问题也会增加感染和死亡。

TL/DR——这只是关于协变量

哲学导论

“辛普森悖论”并不是理发师悖论或其他意义上的“悖论” 。它更像是芝诺的一些运动悖论,其中的悖论是由于没有使用所有可用信息,或者没有完全理解问题。例如,通过使用速率的概念,我们知道亚特兰大会达到她的目标,因为她以恒定的速度行走。她在一半的时间内到达了一半,在 3/4 的时间内到达了 3/4 的路,在 7/8 的时间内到达了 7/8 的路,以此类推,最终到达那里。

你没有解决辛普森悖论。这不是一个悖论。这只是在有限的信息上尽力而为与获取更多信息并适当地使用它之间的区别。

辛普森的协变量混杂情况

真的没有悖论。如果您不知道受试者的年龄,那么实际上您可以很好地预测分数,因为两者之间确实存在正线性关系。至少,与没有任何信息的情况相比,您可以更好地预测分数,因为在这种情况下,您的预测只是总体平均分数。

但是,如果包含组成员身份的附加协变量,则可以做出更好的预测。

如果您尝试将一组模型用于另一组,您只会搞砸。所以课程是关于注意混杂因素,特别是效果修饰符,而不是避免悖论。

我不知道一个真实的例子,但也许我可以提供一些有用的想法。

首先是“辛普森悖论”的性质随着时间的推移而演变。今天,它被广泛称为两个变量之间存在关系的情况(称它们为XY) 具有给定方向,但包含有关分组变量的信息时 (Z) 之前未包括在内,两个变量之间的关系的方向翻转。这是一般现象的一个具体案例,当包含更多信息时,关系可能会发生变化甚至逆转。这是由于两个协变量,XZ, 是相关的。总的来说,今天人们通常认为辛普森悖论是指一种有观测数据的情况,并且两者之间的关系XY控制Z是“真正的”一个。

然而,符号翻转的矛盾效应并不是 Simpson (1951) 论文的重点。这可能发生的早得多(Yule,1903)。例如,辛普森写道:“合并 2 x 2 表的危险众所周知……”(第 240 页)。相反,辛普森的观点是,您不能先验地说分解或汇总分析将提供“正确”答案。你必须知道这个问题,并且根据这个问题,任何一个都可能是正确的。引用他的例子可能会有所帮助:

一名调查员希望检查一副牌中宫廷牌(国王、王后、无赖)的比例是否与颜色有关。碰巧他检查的包是Baby一直在玩的包,有些牌是脏的。他在他的方案中包括了“脏”的分类,以防相关,并获得以下概率:

                                 Table 2
                      Dirty                    Clean
                 Court     Plain          Court     Plain
 Red    .  .  .   4/52      8/52           2/52     12/52
 Black  .  .  .   3/52      5/52           3/52     15/52  

可以观察到,Baby 喜欢红牌胜过黑牌,宫廷牌胜过普通牌,但在 Bartlett 的定义中没有显示出二阶交互作用。调查员在脏卡片和干净卡片中都发现了红色和纯色之间的正相关,但它是组合表

                                 Table 3
                                         Court     Plain 
                         Red    .  .  .   6/52     20/52  
                         Black  .  .  .   6/52     20/52  

它提供了我们称之为合理的答案,即不存在这种关联。

假设我们更改表 2 中类的名称:

                                 Table 4
                       Male                    Female
              Untreated    Treated       Untreated     Treated
 Alive .  .  .   4/52        8/52           2/52        12/52
 Dead  .  .  .   3/52        5/52           3/52        15/52  

概率与表 2 中的完全相同,并且在 2 x 2 表中的每个表中再次存在相同程度的正关联。这次我们说男性和女性的治疗和生存之间存在正相关;但是,如果我们将这些表格结合起来,我们会再次发现在合并后的人群中治疗和生存之间没有关联。这里的“明智”解释是什么?当它适用于男性和女性时,这种治疗很难被认为对种族毫无价值而被拒绝。
(第 240-1 页)

因此,这里的重点与辛普森悖论所变成的不同。它更微妙,在我看来,更有趣。什么是分析数据集的“正确”方法取决于您要完成的工作。


在我看来,您引用的 Pearl 的 DAG 与人们通常理解的“辛普森悖论”不符。也就是说,这不是混淆观测数据的情况。相反,治疗(X) 似乎是外因。在这种情况下,控制血压(Z) 以(部分)中介为条件。如果你这样做,它会削弱测量的总效果,因为你只会评估XY路径,而总效果是两者的总和XY&XZY. 当您减少测量的影响时,它甚至可能变得不显着,这取决于分析的能力。我并不是说珀尔错了,或者这个例子没有用。我认为我们需要非常清楚和明确地说明我们在谈论什么以及我们假设调查员想要实现什么。

上面引用的辛普森的反例本质上是观察性/描述性的。我们还可以考虑预测上下文。通过预测建模(参见 Shmueli,2010),目标是能够在未来使用开发的模型来预测未知值。你有没有“权利”并不重要X变量之间的关系XY不感兴趣。重要的是预测值是否以足够的准确度与真实值匹配。在辛普森悖论的典型例子中,混杂分组,Z, 通常被暗示为晦涩难懂。现在,想象一个预测情况,在这种情况下,我可以通过以下方式获得更准确的预测Z考虑到,但如果我没有Z值,最终用户极不可能拥有它们。在这种情况下,建立的预测模型没有Z无疑会更好。

同样,该示例(例如)反映了具有不同目标的不同情况。如果您想要听起来像珀尔的例子,请考虑一下:管理急诊室的医生最感兴趣的一件事是如何让患者更快地通过。这里有几件事要记住。首先,患者一般遵循三种路径:1)出院回家,2)入院,介于两者之间,3)观察一段时间后出院或入院。所涉及的时间长度为 2 > 3 > 1,三个路径之间几乎完美分离。第二件事是医生,尤其是急诊室的医生,是规避风险的。在模棱两可的情况下,他们会接受更广泛的治疗,这在这种情况下意味着通过急诊室的路径较慢。现在,检查表、附加测试等)是为患有某种疾病的患者开发的。在完成的所有其他工作之上,实施这个新协议会使每条路径花费更长的时间。然而,它产生了更合适的处理方法,重要的是,它澄清了许多原本会存在的模棱两可的地方。这意味着许多患者将通过比其他方式更短的路径移动。在这个例子中,外源性干预/治疗(X) 使每个路径/组内通过 ER 的时间变慢 (Z),但不独立于组。此外,组成员身份对时间有很大影响(Y)。但“明智”的解释是边际分布的变化Y.

参考:

  1. Shmueli, G. (2010)。“解释还是预测?”,统计科学,25, 3 , pp. 289-310, 2010。
  2. 辛普森,EH (1951)。“列联表中相互作用的解释”。皇家统计学会杂志,B 系列,13,第 238-241 页。
  3. 顾乐 (1903)。“统计中属性关联理论的注释”。Biometrika,2、2,第 121-134 页。