对类似问题的普遍共识是,将结果称为“高度显着”是错误的吗?是“高度显着”是一种有效但非特定的方式来描述具有远低于预设显着性阈值的 p 值的关联强度。但是,如何描述略高于阈值的 p值?我看到一些论文使用诸如“有些显着”、“几乎显着”、“接近显着”等术语。我发现这些术语有点花里胡哨,在某些情况下,这是一种边缘虚伪的方式,可以从具有负面结果的研究中提取有意义的结果。这些术语是否可以用于描述“错过”您的 p 值截止值的结果?
将结果称为“几乎”或“有点”显着是错误的吗?
如果您想让“重要性”承认程度,那么就足够公平了(“有些重要”,“相当重要”),但要避免使用暗示您仍然坚持阈值概念的短语,例如“几乎重要” ,“接近意义”或“处于意义的尖端”(我最喜欢博客可能错误上的“仍然不重要” ),如果你不想显得绝望。
从我的角度来看,这个问题归结为进行显着性测试的实际含义。显着性检验被设计为一种决定是否拒绝零假设或不拒绝它的方法。费舍尔本人引入了臭名昭著的 0.05 规则来做出该(任意)决定。
基本上,显着性检验的逻辑是用户必须在收集数据之前指定一个 alpha 水平来拒绝原假设(通常为 0.05) 。完成显着性检验后,如果 p 值小于 alpha 水平,则用户拒绝 null(否则拒绝拒绝)。
你不能宣布一个效应非常显着(比如,在 0.001 水平)的原因是你找不到比你开始寻找的更有力的证据。因此,如果您在测试前将 alpha 水平设置为 0.05,那么无论您的 p 值有多小,您都只能找到 0.05 水平的证据。同样,谈论“有些显着”或“接近显着”的效果也没有多大意义,因为您选择了 0.05 这个任意标准。如果你从字面上解释显着性检验的逻辑,那么任何大于 0.05 的东西都不显着。
我同意“接近意义”之类的术语经常用于提高出版前景。但是,我不认为作者可以为此受到指责,因为当前某些科学领域的出版文化仍然严重依赖 0.05 的“圣杯”。
其中一些问题在以下文章中进行了讨论:
Gigerenzer, G. (2004)。无脑统计。社会经济学杂志,33(5),587-606。
Royall, R. (1997)。统计证据:可能性范式(第 71 卷)。CRC出版社。
这种滑坡回溯到用于无效假设显着性检验 (NHST) 的 Fisher vs Neyman/Pearson 框架。一方面,人们想要对零假设下结果的可能性进行定量评估(例如,效应大小)。另一方面,在一天结束时,您需要一个离散的决定,以确定您的结果是否可能仅是由于偶然性。我们最终得到的是一种不太令人满意的混合方法。
在大多数学科中,传统的显着性 p 设置为 0.05,但实际上没有理由说明为什么必须如此。当我审阅一篇论文时,如果作者称其为 0.06 显着,甚至 0.07,我绝对没有问题,只要方法是合理的,并且整个画面,包括所有分析、数字等,都讲述了一个一致且可信的故事。遇到问题的地方是作者试图用影响规模较小的琐碎数据来编造故事。相反,我可能不会完全“相信”一个测试实际上是有意义的,即使它达到了传统的 p < 0.05 显着性。我的一位同事曾经说过:“您的统计数据应该简单地支持您的数据中已经很明显的内容。”
综上所述,我认为 Vasilev 是正确的。鉴于损坏的出版系统,您几乎必须包含 p 值,因此您几乎必须使用“重要”这个词才能被认真对待,即使它需要像“勉强”这样的形容词(我更喜欢)。你总是可以在同行评审中与之抗衡,但你必须先到达那里。
两个 p 值本身之间的差异通常并不显着。因此,您的 p 值是否为 0.05、0.049、0.051 并不重要...
关于 p 值作为关联强度的度量:p 值不是直接关联强度的度量。p 值是找到与您观察到的数据一样极端或更极端的数据的概率,假设参数为 0(如果有人对零假设感兴趣——请参阅 Nick Cox 的评论)。然而,这通常不是研究人员感兴趣的数量。许多研究人员对回答诸如“参数大于某个选择的截止值的概率是多少?”之类的问题很感兴趣。如果这是您感兴趣的内容,则需要在模型中加入额外的先验信息。