通常在常客假设检验中,零假设的形式为:
我看过很多关于在对这个零假设进行测试时 p 值如何在某种意义上只是样本量的度量的帖子,因为实际上 theta 几乎从不完全是 0,所以给定足够的数据点 p 值将收敛到 0。
那么,如果我们几乎总是先验地知道,为什么所有这些都集中在那个简单的零假设上?
看起来很直观,null 应该更像:, 对于一些. 即使很小,这似乎已经是对真实数据更适用的测试。
我一直在学习 A/B 测试,但还没有看到等价测试的概念,但在那种环境中使用它似乎是一个非常自然的概念?这种方法中是否存在一些我遗漏的缺陷/是否有任何理由更喜欢测试:?
编辑:从另一个线程中找到 Keith Winstein 的相关评论(引用如下):大型数据集不适合假设检验吗?
物理硬币正面概率正好等于 0.5 的简单假设,好吧,那是错误的。
但是,实物硬币正面概率大于 0.499 且小于 0.501 的复合假设可能是正确的。如果是这样,没有任何假设检验——无论有多少硬币翻转进入它——将能够以大于 αα 的概率拒绝这个假设(测试对误报的限制)。
医疗行业一直在测试“非劣效性”假设,例如,一种新的抗癌药物必须证明其患者的无进展生存概率比现有药物低不少于 3 个百分点,在某个置信水平(αα,通常为 0.05)。
再次,完全有道理。当我们已经知道它是错误的({0.5} 是一组度量 0)时,测试“概率完全等于 0.5”之类的东西有什么意义?然而,我认为这比 Keith 描述的复合假设测试多 1000000 倍。我发现的关于非劣效性测试的唯一内容是在医学文献中。我什至不记得在介绍统计课程中学习过它,尽管它是一个非常直观的概念。不是更广泛适用吗?
