为什么人们不以重要性级别换取权力?

机器算法验证 假设检验 统计学意义 统计能力 方法 哲学的
2022-03-18 13:05:49

作为惯例,我们有很多研究,其显着性水平为,幂为但是,很难找到一个且功效为的研究。0.050.8α=0.20.95

根据我的理解,做完一个实验后,如果结果不显着,显着性水平根本不重要,因为在这种情况下,我们正在考虑接受零值是否有意义,我们关心的只是是权力。同样,如果结果显着,则显着性水平成为您的证据,而检验的功效绝对为零。(“无关紧要”,我的意思是“不用于本实验的目的”。显着性水平和功效对于元研究都应该很重要,因此请在您的出版物中报告两者!)

如果我是对的,那么零假设和备择假设在某种程度上是对称的:零假设本身并不需要更多保护。如果要证明替代方案,说“这种新药对患者有影响”,则使用非常小的和中等高的幂。另一方面,当你想证明零时,例如在正态性检验中,那么你应该选择一个适度小的和非常高的功率,这样你就可以保密地接受零。αα

为什么具有中等小和非常高功率的实验如此罕见?α

4个回答

为什么具有中等小和非常高功率的实验如此罕见?α

这有点相对,但可以肯定的是,显着性水平已经很弱,并且已经构成了为更高功率做出的牺牲(例如,相对于显着性水平或其他较低的显着性水平)。虽然对此的看法会有所不同,但我个人的看法是,这已经是一个非常弱的显着性水平,所以选择它已经是获得更高功率的权衡。α=0.05α=0.01

根据我的理解,在进行了一个实验之后,如果结果不显着,那么显着性水平根本就无关紧要,因为在这种情况下,我们正在考虑接受零值是否有意义,而我们关心的只是是权力。同样,如果结果显着,则显着性水平成为您的证据,而检验的功效绝对为零。

我明白你为什么会这样想,但事实并非如此。在经典假设检验中,这些事物之间存在相当复杂和微妙的相互作用。请记住,p 值和功效都与以假设的真实状态为条件的概率有关(零值的 p 值条件和备选方案的功效条件)。当您从数据中获得结果时,您可以对假设进行推断,但您仍然不知道它们的真实状态。因此,说您可以完全忽略测试的“另一半”是不合理的。无论结果在统计上是否显着,对该结果的解释都是针对测试的所有属性进行的。

还值得注意的是,对于固定的模型和测试以及固定的样本量,功效函数是所选显着性水平的函数。选择的显着性水平决定了拒绝区域,这直接影响了检验的功效。再说一遍,这些东西之间是有关系的,你不能忽略测试的“一半”属性。

最后,同样重要的是要注意,执行经典统计测试的从业者通常只会报告测试的 p 值,如果需要二元决策,则让读者选择自己的显着性水平。(除非特别需要立即得出二元结论,否则这是我的首选方法。)现代统计文献强烈警告不要在不给出潜在 p 值的情况下将假设检验的报告结果减少为二元。因此,在许多实际情况下,显着性水平不是在分析之前选择的,也可能根本不是由进行测试的分析师选择的。

这更像是一个扩展的评论而不是一个答案。在这篇博文中可以找到一个有趣的观点,一个简短的引文:

... 认为 [significance] 这个词在 19 世纪后期的分量要小得多,当时它仅意味着结果显示或表示某些东西。然后,在 20 世纪,意义开始聚集它今天所承载的内涵,不仅意味着某种东西,而且意味着某种重要的东西。...

如果这是正确的,那么费舍尔可能意味着有意义的事情,比如值得做笔记(心理或实验室笔记本),值得进一步调查或复制。

这篇psyarxiv 论文提议将标准显着性水平(在心理学研究中)从 0.05 降低到 0.005,这进一步证明了许多人(正确地......)认为 0.05 已经是一个相当弱的要求。

因为 II 类错误被认为比 I 类错误问题少。I 型错误对未来的研究有更大的影响。此外,大多数时候,高功率实验的成本要高得多。

但当然你也可以质疑整个 NHST 框架以及它经常被不知情的研究人员滥用的方式......

在假设检验中,原假设和备择假设不是对称的。假设检验逻辑与证伪逻辑相连。这个想法是,在出现显着结果的情况下,人们希望能够做出强有力的声明,即“从统计上反驳”原假设。当然,这需要一个小的显着性水平;在这方面,0.05 似乎相当高,除了同时通过运行大量测试并选择性地报告重要测试来寻找意义之外,这对“统计上反驳”零假设的想法是一种嘲弄(这就是为什么有些人宣传将阈值降低到 0.005,尽管这不会消除选择性报告)。

事实上,如果你对一个特定的备选方案进行显着性水平 0.2 和功效 0.95 的检验,除了复合假设的细微之处,这意味着拒绝原假设几乎没有任何意义,因为这种情况会一直发生(好吧,1/5次),而不拒绝是反对替代方案的明确证据。基本上,您以相反的方式运行测试。