使用 p < 0.001、p < 0.0001 甚至更低 p 值的研究示例?

机器算法验证 统计学意义 p 值
2022-02-28 14:52:37

我来自社会科学,p < 0.05 几乎是常态,p < 0.1 和 p < 0.01 也出现了,但我想知道:哪些研究领域(如果有)使用较低的 p 值作为常见标准?

4个回答

我的观点是它确实(也不应该)依赖于研究领域。例如,如果您试图复制具有历史或公认结果的研究(我可以想到几项关于效应的研究,这些研究导致过去几年的一些争议)。这相当于在经典的 Neyman-Pearson 框架内考虑较低的“阈值”来检验假设。然而,统计和实际(或实质性)意义是另一回事。p<0.001

旁注“恒星系统”似乎早在 70 年代就主导了科学调查,但参见 J. Cohen 的 The Earth Is Round (p < .05) ( American Psychologist , 1994, 49(12), 997-1003),尽管我们经常想知道的是给定我观察到的数据,但为真的概率是多少?无论如何,Jerry Dallal也对“为什么 P=0.05? ”进行了很好的讨论。H0

可能很少有人使用低于 0.01 的预先指定的 alpha 水平,但人们声称隐含的 alpha 低于 0.01 并错误地认为观察到的 P 值小于0.01 与小于 0.01 的 Neyman-Pearson alpha 相同。

Fisher 的 P 值与 Neyman-Pearson 错误率不同或可互换。并不意味着,除非在设计实验时决定使用作为显着性的临界水平。如果您将视为显着,则意味着假阳性声明的概率为P=0.0023α=0.00230.0023P=0.05P=0.00230.05

看看哈伯德等人。对经典统计检验中证据测量 (p's) 与错误 (α's) 的混淆。美国统计学家(2003 年)卷。57 (3)

我对这些文献不是很熟悉,但我相信一些物理学家在统计测试中使用的阈值要低得多。然而,他们谈论它的方式略有不同,因此社会科学家可能没有意识到这种联系。

例如,如果测量值与理论预测相差三个标准差,则将其描述为“三西格玛”偏差。基本上,这意味着感兴趣的参数在统计上不同于的 az 检验中的预测值。两个 sigma 大致相当于(实际上是 1.96 σ)。如果我没记错的话,物理学中的标准误差水平是 5 sigma,即α=.01α=.05α=5107p<0.0000005

此外,在神经科学或流行病学中,对多重比较进行常规校正似乎越来越普遍。因此,每个单独测试的误差水平可能低于p<.01

正如 Gaël Laurans 所指出的,上述涉及多重比较问题的统计分析倾向于使用更保守的阈值。但是,本质上他们使用的是 0.05,而是乘以测试次数。很明显,这个过程(Bonferroni 校正)可以很快导致非常小的 p 值。这就是为什么过去(在神经科学领域)的人们停在 p<0.001 的原因。现在使用其他多重比较校正方法(参见马尔可夫随机场理论)。