在假设检验中,替代假设不必与原假设相反。例如,对于,被允许, 或者. 我的问题:为什么允许这样做?如果在现实中,或者,在这种情况下,如果应用似然比检验,则可能(错误地)得出结论被接受,或被拒绝,因此被接受?
这个提议怎么样:应该总是相反? 那是,不是真的。这样,我们有效地测试了一个假设,如果 p 值低于预定义的显着性水平,则拒绝它,并且不必同时检验两个可能都是错误的假设。
在假设检验中,替代假设不必与原假设相反。例如,对于,被允许, 或者. 我的问题:为什么允许这样做?如果在现实中,或者,在这种情况下,如果应用似然比检验,则可能(错误地)得出结论被接受,或被拒绝,因此被接受?
这个提议怎么样:应该总是相反? 那是,不是真的。这样,我们有效地测试了一个假设,如果 p 值低于预定义的显着性水平,则拒绝它,并且不必同时检验两个可能都是错误的假设。
您所发现的是这种假设检验方法的基本缺陷之一:即,您正在进行的统计检验并未评估您实际上有兴趣评估其真实性的陈述的有效性。
在这种形式的假设检验中,永远不会被接受,你只能拒绝. 这被统计测试的用户广泛误解和歪曲。
是,适当的补充在原假设下分布的样本空间。单方面的测试,因此应该适当地有(对于一些数字), 和(或相反亦然:, 和),正是因为你提到的原因:如果单边检验中的原假设被指定为,则单边备择假设不能表达. 因此,我(和其他人)不同意那些使用您描述的令人困惑的命名法的人。
有关类似的问题和问题,请参见我的答案。
正确地说,我们实际上并没有测试替代假设是否正确。它经常被这样描述,但就基本统计数据而言,这是不正确的。
我们实际上测试是否有足够的证据来接受一些“新”/“新颖”/“非默认”假设 H。我们这样做是通过
显着性水平
最后一项,“重要性级别”,通常是混淆的来源。我们实际上说的是,“如果假设是错误的,那么我们的结果会有多特殊?” 因此,假设我们设置显着性水平为 0.1%(P=0.001),我们所说的是:
“如果我们的假设是错误的,我们只是偶然得到千分之一的结果。这太不可能了,我们得出的结论可能是正确的。”
所以你可以在你喜欢的地方“画线”——对于一些研究,比如粒子物理学,在得出假设可能是正确的结论之前,你需要两个独立的(独立的)实验,两个实验的显着性水平都是百万分之一。对于一个被操纵的骰子游戏,三分之一的水平可能足以说服你不要玩那个游戏:)
但无论哪种方式,提前选择级别至关重要,否则您可能只是使用“您喜欢的任何级别”来做出自我服务声明。
这指出了通过零假设显着性检验 (NHST) 的传统统计数据中为数不多的严重问题之一。在这种情况下,一个更有意义的方法是完全放弃 NHST,并采用贝叶斯框架。如果您有一些可用的先验信息,只需通过先验分布将其合并到您的模型中。不幸的是,大多数统计数据消费者都过于灌输、痴迷和根深蒂固的老派思想。在这里查看更多讨论。