将结果称为“非常重要”是错误的吗?

机器算法验证 假设检验 统计学意义 p 值 术语
2022-02-15 06:56:32

值远低于传统的水平时,为什么统计学家不鼓励我们将结果称为“高度显着” ?pα0.05

相信一个有 99.9% 的机会不是 I 型错误 ( ) 的结果,而不是只给你 99% 的机会 ( ) 的结果,真的是错误的吗?p=0.001p=0.01

3个回答

我认为说结果“非常重要”并没有太大的错误(尽管是的,这有点草率)。

这意味着如果您设置了一个小得多的显着性水平,您仍然会判断结果是显着的。值要小得多,那么他们仍然可以判断您的结果是显着的。αα

请注意,显着性水平在旁观者的眼中,而值(有一些警告)是数据的一个属性。αp

观察与观察不同,即使两者都可能被您所在领域的标准约定称为“重要”()。微小值意味着反对零的更有力的证据(对于那些喜欢费舍尔假设检验框架的人);这意味着效应大小周围的置信区间将排除具有较大边际的空值(对于那些更喜欢 CI 而不是值的人);这意味着空值的后验概率会更小(对于有一些先验的贝叶斯);这都是等价的,只是意味着调查结果更有说服力请参阅较小的 p 值是否更有说服力?p=1010p=0.04α=0.05pp进行更多讨论。

“非常重要”一词并不精确,也不必如此。这是一个主观的专家判断,类似于观察到一个惊人的大效应大小并称其为“巨大”(或者可能只是“非常大”)。即使在科学写作中,对数据使用定性的、主观的描述也没有错;当然,前提是还提供了客观的定量分析。


另请参阅上面的一些优秀评论,为@whuber、@Glen_b 和@COOLSerdash +1。

这是一个常见的问题。

一个类似的问题可能是“为什么 p<=0.05 被认为是显着的?” ( http://www.jerrydallal.com/LHSP/p05.htm )

@Michael-Mayer 给出了答案的一部分:重要性只是答案的一部分。有了足够的数据,通常一些参数会显示为“显着”(查看 Bonferroni 校正)。多重测试是遗传学中的一个特定问题,其中寻找显着性的大型研究很常见,并且通常需要p 值 <10 -8 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ )。

此外,许多分析的一个问题是它们是机会主义的,而不是预先计划的(即“如果你对数据进行了足够的折磨,大自然总会承认的。”——罗纳德科斯)。

通常,如果分析是预先计划好的(对统计功效进行重复分析校正),则可以认为它是显着的。通常,由多个个人或团体重复测试是确认某事有效(或无效)的最佳方式。结果的重复通常是对重要性的正确测试。

测试是一种黑白决定的工具,即它试图回答一个是/否的问题,例如“是否有真正的治疗效果?”。通常,尤其是在数据集很大的情况下,这样的问题是相当浪费资源的。如果有可能得到一个定量问题的答案,例如“真正的治疗效果有多大?”,为什么还要问一个二元问题?这也含蓄地回答了是/否的问题?因此,我们通常建议使用包含更多信息的置信区间,而不是高度确定地回答无信息的是/否问题。