关于 p 值,为什么是 1% 和 5%?为什么不是 6% 或 10%?

机器算法验证 假设检验 统计学意义 p 值 历史
2022-01-17 23:29:52

关于s,我想知道为什么$1$ % 和$5$ % 似乎是"statistical significance". 为什么不是其他值,例如$6$ % 或$10$ %?

这是否有一个基本的数学原因,或者这只是一个广泛持有的惯例?

4个回答

如果您查看下面的参考资料,您会发现背景有相当多的变化,尽管有一些共同的元素。

这些数字至少部分基于费舍尔的一些评论,他说

(同时讨论1/20的水平)

以这一点作为判断偏差是否显着的界限是很方便的。因此,超过标准偏差两倍的偏差被正式视为显着

$\quad$ Fisher, RA (1925)研究工作者的统计方法p。47

另一方面,他有时更宽泛:

如果 20 分之一的几率似乎不够高,如果我们愿意,我们可以在 50 分之一(2% 点)或 10 分之一(1% 点)处划定界限。就个人而言,作者更愿意将显着性的低标准设定在 5% 点,而完全忽略所有未能达到这一水平的结果。只有当一个设计合理的实验很少不能给出这种程度的意义时,一个科学事实才应该被认为是经过实验建立的。

$\quad$ Fisher, RA (1926) 现场实验的安排
$\quad$ 农业部杂志,p. 504

费舍尔还在他书中的一个表格中使用了 5% - 但他的大多数其他表格的显着性水平变化更大

他的一些评论建议了在不同情况下或多或少严格(即更低或更高的阿尔法水平)的方法。

上面的那种讨论导致了生成表格的趋势,这些表格侧重于 5% 和 1% 的显着性水平(有时还有其他的,如 10%、2% 和 0.5%),因为需要使用任何其他“标准”值。

然而,在这篇论文中,Cowles 和 Davis 建议使用 5%(或至少接近它的值)比 Fisher 的评论更进一步。

简而言之,我们使用 5%(在较小程度上是 1%)是非常随意的约定,尽管显然很多人似乎认为对于许多问题,他们在正确的范围内。

没有理由通常应该使用任何一个特定的值。

更多参考资料:

Dallal, Gerard E. (2012)。统计实践小手册。 - 为什么是 0.05?

斯蒂格勒,斯蒂芬(2008 年 12 月)。“费舍尔和 5% 的水平”。机会 21 (4): 12. 可在此处获得

(在他们之间,你得到了相当多的背景——看起来他们之间确实有一个很好的理由认为至少在 5% 的总体范围内——比如在 2% 和 10% 之间——或多或少在一会儿空气。)

我必须给出一个非答案(与此处相同):

“……当然,上帝对 0.06 的喜爱几乎和 0.05 一样多。上帝将支持或反对零的证据强度视为 p 大小的一个相当连续的函数,这一点毫无疑问吗?” (第 1277 页)

Rosnow, RL 和 Rosenthal, R. (1989)。统计程序和心理科学知识的正当性。美国心理学家,44(10),1276-1284。pdf

该文件包含有关此问题的更多讨论。

我相信这 5% 的人有一些潜在的心理。我不得不说我不记得我在哪里捡到这个了,但这是我以前在每个本科生介绍统计课上做的练习。

想象一个陌生人在酒吧里走近你,告诉你:“我有一个偏向硬币,正面比反面更频繁。你想从我这里买一个,这样你就可以和你的伙伴打赌并从中赚钱吗?” 你犹豫着同意看一看,然后把硬币扔了 10 次。问题:它需要多少次正面/反面才能让你相信它是有偏见的?

然后我举手:如果分裂是5/5,谁会相信硬币有偏差?4/6?3/7?2/8?1/9?0/10?嗯,前两三个不会说服任何人,最后一个会说服所有人;不过,2/8 和 1/9 会说服大多数人。现在,如果你查看二项式表,2/8 是 5.5%,1/9 是 1%。QED。

如果有人现在正在教授本科入门课程,我会鼓励你也进行这个练习,并将你的结果作为评论发布,这样我们就可以积累大量的荟萃分析结果并至少在《美国人》上发表统计学家的教学角。随意改变 $n$ 和单面与双面条件!

在另一个答案中,Glen_b引用了费舍尔的讨论,讨论是否应该根据问题的严重程度来修改这些神奇的数字,所以请不要说“有一种新的治疗方法可以治疗你姐姐的白血病,但它要么可以治愈她3 个月或 3 天内杀死她,所以让我们掷硬币吧”——这看起来就像臭名昭著的 xkcd 漫画一样愚蠢,即使是 Andrew Gelman 也不太喜欢。

谈到硬币和 Gelman,TAS 有 Gelman 和 Nolan 的一篇非常好奇的论文,题为“你可以装一个骰子,但你不能偏向一个硬币”,提出了一个论点,即硬币在空中翻转或旋转桌面,大约一半的时间是正面朝上,另一半时间是反面朝上,所以很难想出一个物理机制来严重偏向硬币。(这显然是一项源自酒吧的研究,因为他们用啤酒瓶盖做实验。)另一方面,加载模具是一件相对容易的事情,我给我的学生做一个练习,大约 1 厘米/半- 来自当地爱好商店的英寸木制立方体和砂纸,要求他们加载模具,并向我证明它已加载 - 这是 Pearson $\chi^2$ 测试中的比例及其力量的练习。

5% 似乎是由 Fisher 从 4.56% 四舍五入的,对应于“曲线的尾部区域超出平均值加上三个或减去三个可能的误差”(Hurlbert & Lombardi, 2009)。

故事的另一个元素似乎是复制带有关键值的表格(Pearson 等,1990;Lehmann,1993)。皮尔逊不允许费舍尔使用他的表格(可能是因为皮尔逊对他自己的出版物进行营销(Hurlbert & Lombardi, 2009)以及他们之间的关系存在问题。

Hurlbert, SH 和 Lombardi, CM(2009 年 10 月)。Neyman-Pearson 决策理论框架的最终崩溃和新费舍尔主义的兴起。在 Annales Zoologici Fennici(第 46 卷,第 5 期,第 311-349 页)中。芬兰动植物出版社

莱曼,EL (1993)。Fisher, Neyman-Pearson 检验假设的理论:一个理论还是两个?美国统计协会杂志,88(424),1242-1249。

Pearson, ES, Plackett, RL 和 Barnard, GA (1990)。学生:威廉·西利·戈塞特的统计传记。美国牛津大学出版社。

另见:Gigerenzer, G. (2004)。无脑统计。社会经济学杂志,33(5),587-606。

Hubbard, R. 和 Lindsay, RM (2008)。为什么 P 值不是统计显着性检验中有用的证据度量。理论与心理学,18(1),69-88。