假设检验中 p 值的解释

机器算法验证 假设检验 p 值
2022-01-20 14:39:32

我最近看到了Jeff Gill (1999) 的论文“The Insignificance of Null Hypothesis Significance Testing”作者提出了一些关于假设检验和 p 值的常见误解,对此我有两个具体问题:

  1. p 值在技术上是,正如论文所指出的,它通常不会告诉我们任何关于的信息,除非我们碰巧知道边际分布,这在“日常”假设检验中很少见。当我们获得一个小的 p 值并“拒绝原假设”时,我们所做的概率陈述究竟是什么,因为我们不能说任何关于的事情?P(observation|H0)P(H0|observation)P(H0|observation)
  2. 第二个问题与论文第 6(652) 页中的一个特定陈述有关:

由于 p 值或由星号表示的 p 值范围不是先验设置的,因此它不是犯 I 类错误的长期概率,而是通常被视为此类错误。

任何人都可以帮助解释此声明的含义吗?

3个回答

(从技术上讲,P 值是在给定零假设的情况下,观察到的数据至少与实际观察到的一样极端的概率。)

Q1。基于小 P 值拒绝原假设的决定通常取决于“Fisher 析取”:要么发生了罕见事件,要么原假设为假。实际上,事件的稀有性是 P 值告诉您的,而不是 null 为假的概率。

零为假的概率只能通过贝叶斯定理从实验数据中获得,这需要指定零假设的“先验”概率(大概是 Gill 所说的“边际分布”)。

Q2。您问题的这一部分比看起来要困难得多。关于 P 值和错误率存在很大的混淆,这大概就是 Gill 所指的“但通常被如此对待”。Fisher P 值与 Neyman-Pearsonian 错误率的组合被称为不连贯的混搭,不幸的是它非常普遍。这里没有简短的答案是完全足够的,但我可以为您指出几篇好论文(是的,一篇是我的)。两者都将帮助您理解 Gill 论文。

Hurlbert, S. 和 Lombardi, C. (2009)。Neyman-Pearson 决策理论框架的最终崩溃和新费舍尔主义的兴起。动物年鉴 Fennici, 46(5), 311–349。(论文链接)

刘,MJ(2012)。药理学(和其他基础生物医学学科)的不良统计实践:你可能不知道 P. British Journal of Pharmacology,166(5),1559-1567。doi:10.1111/j.1476-5381.2012.01931.x (论文链接)

+1 给@MichaelLew,他为您提供了一个很好的答案。也许我仍然可以通过提供一种思考 Q2 的方式来做出贡献。考虑以下情况:

  • 原假设为真。(请注意,如果原假设成立,则不可能出现 I 类错误,并且不清楚值的含义。) p
  • α通常设置为0.05
  • 计算的值为p0.01

现在,获得与您的数据一样极端更极端的数据的概率是 1%(这就是的含义)。你拒绝了原假设,犯了第一类错误是不是这种情况下的长期 I 类错误率也是 1%,很多人可能会直观地得出结论?答案是否定的。原因是,如果您获得了,您仍然会拒绝 null。事实上,即使 ,你也会拒绝 null ,从长远来看,会达到这个大pp0.02p0.049¯p5% 的时间和所有此类拒绝将是 I 类错误。因此,长期 I 型错误率为 5%(您设置了的位置)。 α

(披露:我没有读过 Gill 的论文,所以我不能保证这就是他的意思,但它确实可以理解值与长期 I 型错误率不同的说法。 )p

我想就“零假设显着性检验的重要性”发表评论,但不能回答 OP 的问题。

在我看来,主要问题不是对值的误解。例如,许多从业者经常测试“显着差异”,他们错误地认为显着差异意味着存在“大”差异。更准确地说,它们是在具有形式的上下文中。当样本量增加时,即使对于非常小的时,这个假设也会被拒绝。之间没有区别(我们说小的 epsilonpH0H0:{θ=0}θ=ϵϵϵ0ϵ0等价测试是在这种情况下要走的路)。