等效性测试 - 为什么它不更常见?

机器算法验证 假设检验 等价 托斯特
2022-04-12 19:55:17

通常在常客假设检验中,零假设的形式为:H0:θ=0

我看过很多关于在对这个零假设进行测试时 p 值如何在某种意义上只是样本量的度量的帖子,因为实际上 theta 几乎从不完全是 0,所以给定足够的数据点 p 值将收敛到 0。

那么,如果我们几乎总是先验地知道,为什么所有这些都集中在那个简单的零假设上θ0?

看起来很直观,null 应该更像:H0:|θ|<ϵ, 对于一些ϵ. 即使ϵ很小,这似乎已经是对真实数据更适用的测试。

我一直在学习 A/B 测试,但还没有看到等价测试的概念,但在那种环境中使用它似乎是一个非常自然的概念?这种方法中是否存在一些我遗漏的缺陷/是否有任何理由更喜欢测试:H0:θ=0?

编辑:从另一个线程中找到 Keith Winstein 的相关评论(引用如下):大型数据集不适合假设检验吗?

物理硬币正面概率正好等于 0.5 的简单假设,好吧,那是错误的。

但是,实物硬币正面概率大于 0.499 且小于 0.501 的复合假设可能是正确的。如果是这样,没有任何假设检验——无论有多少硬币翻转进入它——将能够以大于 αα 的概率拒绝这个假设(测试对误报的限制)。

医疗行业一直在测试“非劣效性”假设,例如,一种新的抗癌药物必须证明其患者的无进展生存概率比现有药物低不少于 3 个百分点,在某个置信水平(αα,通常为 0.05)。

再次,完全有道理。当我们已经知道它是错误的({0.5} 是一组度量 0)时,测试“概率完全等于 0.5”之类的东西有什么意义?然而,我认为这比 Keith 描述的复合假设测试多 1000000 倍。我发现的关于非劣效性测试的唯一内容是在医学文献中。我什至不记得在介绍统计课程中学习过它,尽管它是一个非常直观的概念。不是更广泛适用吗?

1个回答

我对使用“点”零假设的后果做了更多思考。我在下面绘制了一些功率曲线:

在此处输入图像描述

基本上对于在做通常的点零假设时的固定 alpha,随着 n 的增加,小的真实参数的功率增加。在我们想要确定真实效果是否“有意义”(即实际/经济意义与统计意义)的许多情况下,这对我来说似乎不是一个很好的属性。

例如,想象一个学术期刊根据“统计意义”接受条目。即使它有功率要求,它也往往会以具有很多小的真实效果的论文而告终,不是很有趣。

相比之下,下面构建的“单边测试”的功效曲线随着 n 的增加而变得更适合它们的目的。如果我们固定 Power(epsilon) = 0.05,随着 n 增加 Power(epsilon + delta) -> 1 以获得一个小的 delta。接受此规则条目的期刊将(假设地)最终得到许多实际上具有经济意义的结果(显然,我假设研究人员不进行多重假设检验、预先注册实验设计等的理想情况。 ..)