我正在尝试调查是否可以证明我的人口中的成功比例大于零。因此,和. 自从,R 中的 prop.test 不起作用,但 bionomial 测试确实返回了令人满意的结果,p 值为.
但是,我主要担心的是 II 类错误的可能性。鉴于两者我所有的数据都是零,离开和,我不清楚如何进行功率分析。
我确实参考了这篇文章(当零假设是,二项式数据的功率分析),但我不认为它与我的数据存在相同的问题,因此我会很感激任何方向。
我正在尝试调查是否可以证明我的人口中的成功比例大于零。因此,和. 自从,R 中的 prop.test 不起作用,但 bionomial 测试确实返回了令人满意的结果,p 值为.
但是,我主要担心的是 II 类错误的可能性。鉴于两者我所有的数据都是零,离开和,我不清楚如何进行功率分析。
我确实参考了这篇文章(当零假设是,二项式数据的功率分析),但我不认为它与我的数据存在相同的问题,因此我会很感激任何方向。
在评估功率之前,我们必须明确测试是什么。
这个零假设假设成功没有发生的机会。即使是一次成功的观察也将成为反对无效的令人信服的证据。但是如果没有成功怎么办(在独立试验)是否被观察到?
对于水平测试根据定义,您需要少于当它为真时拒绝空值的机会。当 null 为真时,成功率为零。因此,当没有观察到成功时,测试可能仍会拒绝空值。 只是不允许这样做超过从长远来看,百分之几的时间。
这些考虑表明,测试必须是以下之一:
当观察到一个或多个成功时,拒绝空值。
当没有观察到成功时,有机会随机拒绝空值不大于(“误报率”)。
这些测试由试验次数决定和您的选择 (请参阅本文末尾有关其含义的讨论。)
现在我们可以根据其定义计算功效:它是在替代假设下拒绝零的机会。备择假设对应于所有非零值(成功概率)。在这种情况下,基本概率计算表明
观察一个或多个成功的机会独立试验是
观察到零成功然后随机拒绝空值的机会是
因此,拒绝空值的机会是
对于给定的和这些是在区间 我绘制了一堆图表,以便您了解它们的行为:
在每个图中,黄色虚线在高度为黄色实线是对应的功率曲线。同样,绿色对应于和蓝色
从公式中得出,并且在图中可以清楚地看出较大的值导致持续更高的功率,全面。 因此,在选择测试的通常平衡中,你会想要尽可能大,以符合您限制误报率的需要。那么显然你会选择
因此,鉴于您选择的测试规模和观察次数功率可以大到通过使用测试
注意意味着当没有观察到成功时,您的测试永远不会拒绝 null。所有其他值意味着您的决定是随机的:它不仅取决于观察结果,还取决于独立随机变量的结果(与观察结果无关)。有些人对使用随机测试感到不舒服。没关系,但他们将被迫使用此测试的最低功率版本(如蓝色曲线所示)。这值得深思。(我记得是杰克·基弗(Jack Kiefer)指出,许多拒绝使用随机测试的人仍然没有问题随机选择观察结果;-)。)