解释 xkcd 果冻豆漫画:是什么让它好笑?

机器算法验证 假设检验 统计学意义 置信区间 p 值 幽默
2022-02-01 03:54:04

我看到他们运行的总共 20 次测试中有一次,p<0.05,因此他们错误地假设在二十次测试中的一次中,结果是显着的(0.05=1/20)。

xkcd 果冻豆漫画-“意义重大”

  • 标题:意义重大
  • 悬停文本:“‘所以,呃,我们再次进行了绿色研究,但没有发现任何链接。这可能是一个--’‘关于绿色果冻豆/痤疮链接的研究冲突;推荐更多研究!’”

xkcd 漫画 882 - “重要”

3个回答

幽默是一件非常私人的事情——有些人会觉得它很有趣,但对每个人来说可能并不有趣——而且试图解释是什么让事情变得有趣往往无法传达有趣,即使他们解释了潜在的观点。事实上,并不是所有的 xkcd 都是为了搞笑。然而,许多人确实以一种发人深省的方式提出了重要的观点,至少有时他们在这样做时很有趣。(我个人觉得这很有趣,但我很难清楚地解释究竟是什么让我觉得很有趣。我认为部分原因是对可疑甚至可疑结果变成媒体马戏团的方式的认识(其中另见这个博士漫画),也许部分是对某些研究可能实际进行的方式的认可——如果通常不是有意识的。)

但是,无论它是否让您的有趣骨头发痒,人们都可以理解这一点。

重点是在某个中等显着性水平(如 5%)上进行多重假设检验,然后公布显着性水平。当然,如果你做 20 次这样的测试,而实际上没有任何重要的事情发生,那么这些测试的预期数量是 1。n显着性水平检验1n,大约有 37% 的机会没有显着结果,大约 37% 的机会出现一个,大约 26% 的机会出现多个(我刚刚检查了确切的答案;它们已经足够接近了)。

在漫画中,兰德尔描绘了 20 次测试,所以这无疑是他的观点(即使没有发生任何事情,你也希望获得一次有意义的测试)。虚构的报纸文章甚至强调了副标题“只有 5% 的巧合机会!”的问题。(如果最终出现在论文中的一项测试是唯一完成的一项,那么可能就是这种情况。)


当然,还有一个更微妙的问题,即单个研究人员的行为可能会更加合理,但仍然会出现误报猖獗的问题假设这些研究人员只进行了 5 次测试,每次都在 1% 的水平上,所以他们发现这样一个虚假结果的总体机会只有 5% 左右。

到现在为止还挺好。但现在想象一下,有 20 个这样的研究小组,每个小组都测试他们认为有理由尝试的随机颜色子集。或者 100 个研究小组……现在有多少机会像漫画中的标题一样?

所以更广泛地说,漫画可能更普遍地引用了出版偏见。如果只宣扬显着的结果,我们就不会听到数十个小组对绿色软糖豆一无所获,只有一个小组发现了。

确实,这是本文中的主要观点之一,在过去几个月中一直在新闻中(例如这里,尽管它是 2005 年的文章)。

对那篇文章的回应强调了复制的必要性。请注意,如果要对已发表的研究进行多次复制,“与痤疮有关的绿色软糖”结果将不太可能成立。

(事实上​​,漫画的悬停文本巧妙地引用了同一点。)

假设检验对发表决定的影响已在 50 多年前的 1959 年 JASA 论文发表决定及其对从显着性检验得出的推论的可能影响 - 或反之亦然(抱歉收费墙)中进行了描述。

论文概述 论文指出,发表的科学论文结果并不是所有研究结果的代表性样本。作者回顾了在四大心理学期刊上发表的论文。97% 的审查论文报告了其主要科学假设的具有统计学意义的结果。

作者对这一观察提出了一种可能的解释:产生不显着结果的研究不会发表。其他研究人员不知道的此类研究可能会独立重复,直到最终偶然出现重大结果(类型 1 错误)并发表。这为发表的科学文献可能包含过度表示由统计显着性检验中的类型 1 错误导致的不正确结果打开了大门——这正是原始 XKCD 漫画取笑的场景。

这一普遍观察结果随后在随后的几年中得到了验证和重新发现。我相信 1959 年的 JASA 论文是第一个提出这一假设的论文。那篇论文的作者是我的博士生导师。35 年后,我们更新了他 1959 年的论文,得出了同样的结论。重新审视出版决定:统计测试结果对出版决定的影响,反之亦然。 美国统计学家,第 49 卷,第 1 期,1995 年 2 月

人们忽略的是,绿色果冻豆案例的实际 p 值不是 0.05,而是 0.64 左右。只有假装(名义)p 值是 0.05。实际和假想的 p 值之间存在差异。即使所有空值都为真,在 20 个中找到 1 个达到标称水平的概率也不是 0.05,而是 0.64。另一方面,如果你评估比较可能性的证据——除了误差统计之外最受欢迎的观点(p 值位于其中),你会说有 H 的证据:绿色果冻豆与痤疮真正相关。那是因为 P(x;no effect) < P(x; H)。左侧 < .05,而右侧相当高:如果绿色果冻豆确实引起痤疮,那么可能会发现观察到的关联。单独的可能性无法识别错误概率,因为它们取决于获得的实际数据。评估与仅对绿色软糖豆和粉刺进行这一测试没有区别。因此,尽管这幅漫画经常被视为取笑 p 值,但有趣的是它说明了为什么我们需要考虑整体错误概率(就像非假装 p 值所做的那样)而不仅仅是可能性。贝叶斯推理也以结果为条件,忽略错误概率。避免为贝叶斯找到 H 证据的唯一方法是在 H 中具有较低的先验值。但无论主题如何,我们都会调整 p 值,并且不依赖先验,因为使用了狩猎程序找到要检验的假设。即使被猎杀的H是可信的,它' s 仍然是一个糟糕的测试。Errorstatistics.com