假设您使用作为显着性水平。如果你没有得到显着的结果,将显着性水平提高到会更好吗?
提高显着性水平真的好吗?
扩展@EpiGrad 的答案(这是一个很好的答案):
完全忽略 p 值的原因有很多:主要是,它们回答了我们很少感兴趣的问题。
如果您要使用 p 值,将它们用作截止值通常没有什么意义。
如果要将它们用作截止值,则应在分析之前确定截止值
对 I 类错误进行更严格的截止意味着更低的功率(更多的 II 类错误)。I 型的典型值为 0.05,II 型的典型值为 0.20(功率 = .8)。但是没有理由说 II 类错误一定比 I 类错误更糟糕。假设您开发了一种药物,可以治疗一种晚期疾病,而且速度很快(例如埃博拉病毒)。你测试一下。
第一类错误——你说药物有作用,但实际上没有作用,然后给垂死的人服用无用的药物。
II 型错误——你说药物在起作用时什么也没起作用,而你没有给垂死的人提供有益的药物。
哪个更糟?II型,我的书。
引用大卫考克斯教授的话
没有常规的统计问题,只有有问题的统计程序
只是如果你没有得到显着的结果?不。在进行实验并且结果已知之后摆弄显着性水平绝不是好的做法。
在某些情况下,您可能会选择更宽松的 p 值,但事后这样做是个坏主意。
一方面,因为它的 p 值高于 0.01(这是一个异常严格的标准),所以对变量进行折扣有点人为。你如何到达那里可能比最终的显着性水平更重要。一个基于逻辑或因果关系的变量具有可接受的 p 值可能比具有较低 p 值但没有有意义的逻辑支持的变量更有意义。
如果您正在处理假设检验,请注意统计显着性在很大程度上只是样本量的函数。大样本量将转化为低标准误差和更高的统计显着性。而且,这个过程有些人为,因为大样本会使非实质性差异在统计上显着。如果您在这样的领域内进行交易,我建议您转向效应大小方法,其中统计距离的单位不是标准误差,而是标准偏差。而且,后者不能被样本量所操纵。
我发现自己问了同样的问题,并来到这里寻找好的论据,我不得不说我不相信。让我解释一下为什么我认为在实验后改变显着性水平是可以的。
无论您使用选择的显着性水平a计算什么,无论您在实验之前还是之后选择它,都将具有相同的值。换句话说,给定一些结果,不可能推断出 a 的选择是在之前还是之后完成的。
仅当您不清楚自己在做什么时,道德才成为一个问题。如果你说你测量了一个显着的效果而没有具体说明你的意思,那可能会产生误导。但是,这无关紧要,如果您按照应有的方式说明您选择了什么。如果您的数据可用,那就更好了,因为任何感兴趣的人都可以轻松地复制您的计算。
如果有人决定使用您的结果,他们将有自己的标准来判断他们愿意接受的 I 型和 II 型错误的严重程度。如果您使用更高的 a获得显着结果,它仍然是有用的信息。由谁使用您的信息来决定选择的 a是否足够低。
为了说明最后一个论点,我将借鉴@dilip-sarwate 的轶事。假设一个农民之前确实在他的谷仓一侧画了目标并试图向他们开枪。然后他看到子弹落在目标之外,但只是一点点。如果他事后决定增加目标的半径,可以称之为作弊,但我认为这仍然是有效的信息:也就是说,他并不像他预期的那样准确,但他仍然有点准确和甚至可以说多少。然后你用一个更具体的结果替换一个无用的结果,“农民不擅长用枪”,更具体的结果是“农民精确到 5 厘米以内”。