“科学家起来反对统计意义”是什么意思?(自然评论)

机器算法验证 统计学意义 p 值 偏见
2022-01-15 04:18:23

《自然科学家评论》的标题反对统计意义的开头是:

Valentin Amrhein、Sander Greenland、Blake McShane 和 800 多名签署者呼吁结束大肆宣传并消除可能的关键影响。

后来包含如下语句:

同样,我们并不提倡禁止 P 值、置信区间或其他统计措施——只是我们不应该断然对待它们。这包括统计显着与否的二分法,以及基于其他统计度量(如贝叶斯因子)的分类。

我想我可以理解,下图并没有说这两项研究不同意,因为一项“排除”没有效果,而另一项则没有。但是这篇文章似乎比我能理解的要深入得多。

到最后似乎有四点总结。对于我们这些阅读而不是编写统计数据的人来说,是否可以用更简单的术语来总结这些?

在谈论兼容性间隔时,请记住四件事。

  • 首先,仅仅因为区间给出了与数据最兼容的值,给定假设,并不意味着它之外的值是不兼容的;他们只是不太兼容......

  • 其次,考虑到假设,并非所有内部值都与数据同样兼容......

  • 第三,就像它来自的 0.05 阈值一样,用于计算间隔的默认 95% 本身就是一个任意约定......

  • 最后,也是最重要的一点,保持谦虚:兼容性评估取决于用于计算区间的统计假设的正确性......


自然:科学家们反对统计意义

4个回答

据我所知,前三点是单个论点的变体。

科学家经常将不确定性测量()视为如下概率分布12±1

均匀概率分布

实际上,它们更有可能看起来像这样在此处输入图像描述

作为一名前化学家,我可以确认,许多具有非数学背景的科学家(主要是非物理化学家和生物学家)并不真正了解不确定性(或他们所说的错误)应该如何起作用。他们回忆起本科物理的时候,他们可能不得不使用它们,甚至可能不得不通过几种不同的测量来计算复合误差,但他们从来没有真正理解过它们。我也对此感到内疚,并假设所有测量必须在间隔内。直到最近(和学术界之外),我才发现误差测量通常指的是某个标准偏差,而不是绝对限制。±

因此,分解文章中的编号点:

  1. CI 之外的测量仍然有可能发生,因为那里的真实(可能是高斯)概率是非零的(或者在任何地方,尽管当你远离时它们会变得非常小)。之后的值确实代表一个 sd,那么数据点仍有 32% 的机会落在它们之外。±

  2. 分布不均匀(平顶,如第一张图所示),呈峰值。与边缘相比,您更有可能在中间获得价值。这就像掷一堆骰子,而不是一个骰子。

  3. 95% 是一个任意的截止值,几乎与两个标准偏差一致。

  4. 这一点更多的是对一般学术诚实的评论。我在攻读博士学位期间的一个认识是,科学不是某种抽象的力量,而是人们试图从事科学工作的累积努力。这些人试图发现关于宇宙的新事物,但同时也试图让他们的孩子吃饱并保住工作,不幸的是,在现代,这意味着某种形式的出版或灭亡正在发挥作用。实际上,科学家依赖于既真实有趣的发现,因为无趣的结果不会导致发表。

诸如之类的任意阈值通常可以自我延续,尤其是在那些不完全了解统计数据并且只需要在其结果上加上通过/失败标记的人中。因此,人们有时会半开玩笑地谈论“再次运行测试,直到你得到 ”。这可能非常诱人,尤其是如果博士/助学金/就业取决于结果,那么这些边际结果就会摇摆不定,直到分析中出现所需的p<0.05p<0.05p=0.0498

这种做法可能对整个科学有害,特别是如果它被广泛使用,所有这些都是为了追求一个在自然眼中毫无意义的数字。这部分实际上是在劝告科学家对他们的数据和工作诚实,即使这种诚实对他们不利。

这篇文章的大部分内容和您所包含的数字都提出了一个非常简单的观点:

缺乏效果的证据并不能证明它不存在。

例如,

“在我们的研究中,给予氰化物的小鼠并没有以统计学上显着更高的比率死亡”并不是“氰化物对小鼠死亡没有影响”的说法的证据。

假设我们给两只老鼠一剂氰化物,其中一只死了。在两只老鼠的对照组中,它们都没有死亡。由于样本量很小,因此该结果没有统计学意义()。因此,该实验并未显示氰化物对小鼠寿命的统计显着影响。我们是否应该得出氰化物对老鼠没有影响的结论?显然不是。p>0.05

但这是作者声称科学家经常犯的错误。

例如,在您的图中,红线可能来自对极少数老鼠的研究,而蓝线可能来自完全相同的研究,但在许多老鼠身上。

作者建议,科学家们不使用效应大小和 p 值,而是描述与他们的发现或多或少兼容的可能性范围。在我们的两只老鼠实验中,我们必须写下我们的发现都与氰化物是非常有毒的,而且它根本没有毒是相容的。的置信区间范围,点估计为[60%,70%]65%. 然后我们应该写出我们的结果将与该剂量杀死 65% 的小鼠的假设最相容,但我们的结果也与低至 60 或高至 70 的百分比在某种程度上相容,并且我们的结果将不太相容在那个范围之外的真理。(我们还应该描述我们为计算这些数字所做的统计假设。)

我会尽力。

  1. 置信区间(他们将其重命名为兼容性区间)显示与数据最兼容的参数值。但这并不意味着区间外的值与数据绝对不兼容。
  2. 置信区间中间附近的值比区间末端附近的值与数据更兼容。
  3. 95% 只是一个惯例。您可以计算 90% 或 99% 或任何百分比的间隔。
  4. 置信/相容区间仅在实验进行得当、分析是根据预设计划进行并且数据符合分析方法的假设时才有用。如果您对不良数据进行了不好的分析,则兼容性间隔没有意义或没有帮助。

伟大的XKCD不久前做了这个卡通,说明了这个问题。如果的结果被简单地视为证明了一个假设——而且它们经常是——那么如此证明的 20 个假设中就有 1 个实际上是错误的。类似地,如果被认为是对假设的反驳,那么 20 个真假设中就有 1 个将被错误地拒绝。P 值不会告诉您假设是真还是假,它们会告诉您假设可能是真还是假。似乎引用的文章正在反击所有太常见的幼稚解释。P>0.05P<0.05