p=5.0% 显着吗?

机器算法验证 假设检验 统计学意义 p 值
2022-02-01 10:25:14

今天有人问我,0.05(精确)的 p 值是否被认为是显着的(给定 alpha=5%)。我不知道答案,谷歌找到了两个答案:(a)如果 p 小于 5%,结果是显着的;(b)如果 p 小于 5% 或等于 5%。

当然,这些网站都没有引用任何人。为什么要一个-这是常识,无论如何,这5%是任意的。但这无助于我告诉我的学生一些要记住的事情。

所以,这是我关于检验假设的绝望问题:如果 p 值恰好是 alpha - 我是否认为结果显着?在这种情况下,权威引用是什么?

非常感谢你

3个回答

抛开一些实际问题(例如的任意程度),显着性水平和 p 值的定义使这个问题的答案变得明确。α

也就是说,正式地,拒绝规则是时您拒绝p=α

时不拒绝,那么你的类型 I 错误率实际上不会是p=αα

(就我而言,没有“权威”的引用;你真的需要掌握 Neyman-Pearson 和 Fisherian 的假设检验方法,这是随着时间的推移而发展起来的。)

有许多好的统计文本可以正确描述假设检验。

p值的定义在相关维基百科文章的第一句话中给出了正确的*:

p 值是在假设原假设为真的情况下,获得至少与实际观察到的统计量一样极端的检验统计量的概率。

*(不,维基百科不是权威,我只是说定义是正确的)

为简单起见,让我们坚持使用空点;它有助于理解这一点,而不会因其他问题而混淆水域。

现在显着性水平,是选择的类型 I 错误率。这是您选择在其为真时拒绝原假设的比率。也就是说,它是您应该拒绝空值的时间比例现在考虑一个具有离散分布的检验统计量——只有一次恰好实际上是可能的**。(通常情况下,实际的 alpha 值也会与 5% 之类的圆润的值不同。)αp α

** 好吧,我想我的讨论仅限于纯离散或纯连续分布式测试统计。在混合情况下,您可以弄清楚我的离散讨论如何适用(在适用的情况下)。

的双尾符号测试最接近 5% 的可实现显着性水平是 4.904%。所以让我们选择(或者更准确地说,)。n=17α=4.904%137500217

那么当时拒绝,那么拒绝率是多少?我们可以解决这个问题。它是 4.904% - 这是我们选择H0p=αα

另一方面,当为真时,如果我们在时不拒绝,拒绝率是多少?我们可以解决这个问题。只有1.27%。它远小于那不是我们报名参加的考试!H0p=αα

也就是说,如果在拒绝区域中,我们的测试(很明显!)具有所需的属性。p=α

[现在让我们考虑一下你的情况。你的 p 值实际上是 5% 吗?我敢打赌,由于几个不同的原因,事实并非如此。但无论如何,您可以正式声明,是拒绝。]p=α

如果您预先描述您的拒绝规则并表明(如果满足假设),它具有所需的显着性水平,那么可能不需要参考。

拒绝规则只是关于哪些测试统计值将导致您拒绝的声明。它等同于定义拒绝区域(参见 Casella 和 Berger,Statistical Inference,p346,它用简单的术语定义了术语拒绝区域)。H0

同一本书以与维基百科不同的术语定义了 p 值 (p364)(但结果含义相同)——也就是说,它将它定义为(对于给定的数据集),最小的会导致拒绝 null .α

(如果您有不同的版本,页码可能会更改,但它有一个索引,因此您可以查找术语;注意,您可能需要查看“假设检验”下的列表或索引中的类似内容以查找'拒绝区域')

嗯,让我们试试现成的另一本书。Wackerly, Mendenhall & Scheaffer Mathematical Statistics with Applications,第 5 版,在 p412 上定义了一个拒绝区域,在 p431 上定义了一个 p 值(与 C&B 相同的定义)。

我在早期的生物统计学课上从一位教授那里学到的一个有趣的坦白是,0.05 显着性水平更多地是通过共识而不是黄金真理得出的。从那以后,我看到了与 0.05 显着性水平调情的文献,例如“接近”仍然是这项研究的一个惊人发现,我也听说过 0.05 显着性水平可能不适用于所有研究领域的论点。话虽如此,我发现点估计和置信区间比显着性水平更能提供信息。这是一篇关于此事的有趣文章(无论如何对我来说)。

p 的值通常设置为如前所述的共识(或者更确切地说是懒惰)。为了真正能够说某件事很重要,我们必须找到与效应大小、样本大小以及您希望它对数据有多严格相对应的 p 值。这称为功率分析(它是统计学中的一个子领域)。许多人要么不知道,要么根本不使用它,因为它并不简单。这并不是说它的方式很好。我们应该始终进行此类研究,以得出真正有意义的推论。