在 Wilcoxon 符号秩统计显着性检验中,我们遇到了一些产生-的价值. 有一个阈值,这个结果是否足以拒绝原假设,或者说测试没有结论更安全,因为如果我们将 p 值四舍五入到小数点后 3 位,它就变成了?
0.04993 的 p 值是否足以拒绝原假设?
这里有两个问题:
1)如果您正在进行正式的假设检验(并且如果您要在我的书中引用 p 值,那么您已经是),正式的拒绝规则是什么?
将测试统计数据与临界值进行比较时,临界值在拒绝区域内。虽然当一切都是连续的时,这种形式并不重要,但当检验统计量的分布是离散的时,它却很重要。
相应地,在比较 p 值和显着性水平时,规则是:
拒绝如果
请注意,即使您将 p 值四舍五入到 0.05,实际上即使值正好是 0.05,正式来说,你仍然应该拒绝。
2)就“我们的 p 值告诉我们什么”而言,然后假设您甚至可以将 p 值解释为“反对零的证据”(假设对此的看法有些分歧),0.0499 和 0.0501 不是真的对数据说了不同的话(效果大小往往几乎相同)。
我的建议是(1)正式拒绝空值,也许指出即使它恰好是 0.05,它仍然应该被拒绝;(2) 注意没有什么特别的它非常接近那个边界——即使是稍微小的重要性阈值也不会导致拒绝。
它存在于旁观者的眼中。
形式上,如果您的问题有严格的决策规则,请遵循它。这表示给出。但是,我不知道在这种情况下有任何问题(尽管设置是许多从业者在 Statistics101 之后所做的)。
所以这真的归结为 AlefSin 之前评论的内容。您的问题不可能有“正确答案”。报告你得到了什么,无论是否四舍五入。
有大量关于“意义的意义”的文献;例如,参见德国一位著名统计学家 Walter Krämer 最近发表的关于“统计意义的崇拜 - 经济学家应该和不应该做什么来让他们的数据说话”的论文,Schmollers Jahrbuch 131 , 455-468, 2011。
答案绝对不是。没有“在旁观者的眼中”,没有争论,答案是否定的,你的数据在当时并不重要水平。(好吧,有一条出路,但它是一条非常狭窄的路径。)
关键问题是这句话:“我们遇到了一些数据……”。
这表明您查看了其他几个统计假设,并拒绝了它们,因为它们没有达到您的显着性水平。您发现了一个(几乎)符合您的标准的假设,并且您想知道它是否重要。除非你的值占了这样的多重假设检验,它过于乐观。鉴于您距离阈值仅小数点后三位,考虑到即使是一个额外的假设也肯定会推动越线。
这种统计上的渎职行为有一个名字:数据挖掘。我对在论文中将其作为一个有趣的假设进行报道感到矛盾。你期望它持有它有什么物理原因吗?
然而,有一条出路。也许您事先决定仅对这一数据集执行这一测试。你把它写在你的实验笔记本上,当着别人的面,这样你以后可以证明它。然后你做了你的测试。
如果你这样做了,那么你的结果在水平,你可以支持像我这样的怀疑论者。否则,对不起,这不是一个具有统计意义的结果。