著名的易于理解的混杂变量使研究无效的示例

机器算法验证 实验设计 混杂 观察研究 悖论
2022-02-05 08:03:30

是否有任何著名的统计研究最初发表并被认为是有效的,但后来由于没有考虑到混杂变量而不得不被抛弃?我正在寻找一些易于理解的东西,可以通过零先决条件的定量识字课来解释和欣赏。

4个回答

喝咖啡与肺癌

我最喜欢的例子是据说“喝咖啡的人患肺癌的风险更大”,尽管大多数喝咖啡的人......嗯......咖啡,而不是吸入咖啡。

对此进行了各种研究,但共识仍然是,得出这一结论的研究通常只是比不吸烟的咖啡饮用者有更大比例的吸烟咖啡饮用者。换句话说,吸烟的影响混淆了咖啡消费的影响,如果不包括在模型中的话。我能找到的最新文章是 Vania Galarraga 和 Paolo Boffetta (2016) 的元分析。

肥胖悖论

另一个困扰临床研究的例子是肥胖对某些疾病有益的说法。具体来说,许多文章,直到今天(只要在 pubmed 上快速搜索肥胖悖论并感到惊讶),声称以下内容:

  • 虽然较高的 BMI 会增加患糖尿病、心血管疾病和某些类型癌症的风险,但一旦患者已经患有这种疾病,较高的 BMI 与较低的主要对抗性事件或死亡率相关。

为什么会这样?肥胖被定义为对健康产生负面影响的过多脂肪,但我们根据 BMI 对肥胖进行分类。BMI计算如下:

BMI=weight in kg(height in m)2,

所以对抗肥胖最直接的方法是通过减肥(或以某种方式长高)。

专注于减轻体重而不是脂肪的方案往往会导致肌肉大量减少。这可能是导致较低的 BMI 与较高的主要对抗事件发生率相关的原因。

由于许多研究不包括身体脂肪(百分比)的测量值,而仅将 BMI 作为替代指标,因此身体脂肪量混淆了 BMI对健康的影响。

Steven G. Chrysant (2018) 对这一现象进行了很好的回顾。他以:

[B]根据最近的证据,肥胖悖论是用词不当,可能会向公众传达肥胖并不坏的错误信息。

其次是:

期刊[应该]不再接受有关“肥胖悖论”的文章。


:Vania Galarraga 和 Paolo Boffetta(2016 年):喝咖啡和肺癌风险——荟萃分析。癌症流行病学生物标志物 上一页 2016 年 6 月 1 日 (25) (6) 951-957;DOI:10.1158/1055-9965.EPI-15-0727

:Steven G. Chrysant(2018 年):无论高血压和心脏病的肥胖悖论如何,肥胖都是不好的。J Clin Hypertens(格林威治)。2018 年 5 月;20(5):842-846。doi: 10.1111/jch.13281。电子版 2018 年 4 月 17 日。


声称已经证明肥胖悖论的(不良)研究示例:

  • 麦考利等人。(2018):心力衰竭中的运动能力和肥胖悖论:FIT(亨利福特运动测试)项目
  • 韦瑟拉德等人。(2018 年):体重指数和肥胖与肺动脉高压生存率之间的关联
  • 帕特尔等人。(2018):肥胖悖论:使用超声心动图应变成像对肺动脉高压患者肥胖对右心室功能的保护作用

文章驳斥肥胖悖论仅仅是体脂的混杂效应:

  • 等人。(2017):体重指数对肥胖错误分类对 CKD 患者死亡率的影响
  • 莱吉奥等人。(2018):高体重指数、健康的代谢特征和低内脏脂肪组织:矛盾的是再次称其为肥胖
  • 麦地那-Inojosa等人。(2018):肥胖和瘦体重与冠状动脉疾病患者长期心血管事件之间的关联:没有悖论
  • Flegal & Ioannidis (2018):肥胖悖论:应该放弃的误导性术语

关于癌症肥胖悖论的文章:

  • 塞斯佩德斯等人。(2018):癌症中的肥胖悖论:肌肉有多重要?
  • 卡恩等人。(2018 年):身体成分在解释癌症对位中超重悖论中的重要性

您可能想介绍辛普森悖论

该页面的第一个示例是加州大学伯克利分校的性别偏见案例,在该案例中,在查看总体录取率时,人们认为招生中存在性别偏见(对男性),但在部门调查时,这种情况被消除或逆转。部门的混杂变量在申请更具竞争力的部门时会出现性别差异。

电力线与癌症

在一项初步研究发现住在高压输电线路附近与癌症之间存在联系后,后续研究发现,当您将收入纳入模型时,输电线路的影响就会消失。

住在电力线旁边是低家庭收入/财富的适度准确的预测指标。说白了,输电线路旁边的豪宅没有其他地方那么多。

贫困与癌症之间存在相关性。当在靠近和远离输电线路的类似收入阶层的家庭之间进行比较时,输电线路的影响消失了。

在这种情况下,混杂变量是家庭财富和到最近高压线的距离。

背景阅读

考虑以下示例。我不确定它们一定很有名,但它们有助于证明混杂变量的潜在负面影响。

假设正在研究出生顺序(第一个孩子,第二个孩子等)与孩子是否患有唐氏综合症之间的关系。在这种情况下,产妇年龄将是一个混杂变量:

  1. 较高的母亲年龄与儿童的唐氏综合症直接相关

  2. 较高的产妇年龄与唐氏综合症直接相关,无论出生顺序如何(母亲在 50 岁时生下第一个和第三个孩子的风险相同)

  3. 母亲的年龄与出生顺序直接相关(第二个孩子,除了双胞胎,在母亲比第一个孩子的出生年龄大时出生)

  4. 母亲的年龄不是出生顺序的结果(生第二个孩子不会改变母亲的年龄)

更多示例

在风险评估中,年龄、性别和教育水平等因素往往会影响健康状况,因此应加以控制。除了这些因素之外,研究人员可能不会考虑或无法访问有关其他因果因素的数据。一个例子是吸烟对人类健康的研究。吸烟、饮酒和饮食是相关的生活方式活动。一项关注吸烟影响但不控制饮酒或饮食的风险评估可能会高估吸烟的风险(Tjønneland、Grønbaek、Stripp 和 Overvad,1999 年)。吸烟和混杂因素在职业风险评估(例如煤矿安全)中进行了审查(Axelson,1989 年)。当特定职业中的非吸烟者或非饮酒者样本数量不多时,风险评估可能会偏向于发现对健康的负面影响。

参考资料: https ://en.wikipedia.org/wiki/Confounding

Tjønneland, A.、Grønbaek, M.、Stripp, C. 和 Overvad, K. (1999)。48763 名丹麦男性和女性的随机样本中的葡萄酒摄入量和饮食。美国临床营养学杂志,69(1), 49-54。

Axelson, O. (1989)。吸烟在职业流行病学中的混淆。英国工业医学杂志,46(8),505-507。