如果我的结果显着,为什么我需要 AB 测试的统计功效?

机器算法验证 统计学意义 t检验 统计能力 测试
2022-03-17 09:22:44

有人告诉我,我需要重要性和力量才能使我的 AB 结果有效。我为此进行了很多研究,上述陈述没有意义。我知道我们需要足够高的能力来不拒绝零假设并假设新功能没有购买任何实际效果,但是当我的置信区间已经如此之高时,为什么我们需要能力来拒绝零假设?

我的困惑如下:

  1. 功率为 (1-Beta)。所以功率越高,第二类错误的概率就越低(当它为假时不拒绝原假设)。问题是,我拒绝零假设,因为我的结果非常重要并且 alpha 已经很低。

  2. 降低 alpha,在相同功效下所需的样本量更多:这进一步增加了我的信念,即您不需要统计功效来拒绝零假设。我的意思是,我们真的是说我的置信区间越大,验证效果所需的数据量就越大?

我不确定我是否遗漏了一些关键概念。请帮帮我,因为我很确定新功能有积极的转化,我已经达到了 99.99% 的 CI。

4个回答

功率通常是您在进行研究之前计算的东西。例如,假设您正在尝试测试药物 A 是否比药物 B 更有效。由于某些成本,每个新参与者都非常昂贵。因此,您计算您希望能够检测到的最小效应量(例如,它将血压降低 10 个点),然后根据该信息确定您需要什么样本量来检测治疗中的 10 个点差异。假设功率分析表明您需要 40 名参与者。

现在让我们说治疗 A 和 B 之间的实际差异比你的最小值大得多——比如 30 分。您可以使用更小的样本量来检测这种差异。功效分析的重点是设置您定性认为需要检测的最小效应量。

因此,功率分析并不是您在研究后真正做过的事情,尤其是在您的结果很重要的情况下。如果你的结果很重要,那么它们就很重要。没有附加条件(嗯,至少与权力有关)。

你绝对,完全,完全正确。这个精确的论点已由Hoenig & Heisey 发表,“The Abuse of Power: The Pervasive Fallacy of Power Calculations for Data Analysis”(2001 年,美国统计学家

实际上,他们反其道而行之:人们经常在发现没有显着效果后使用“事后功效”,而这种“功效计算”“表明”他们的研究不足以找到他们确实发现的效果大小。但是,当然,以与您的方式完全相同的方式,这只是对大于 0.05 的 ap 值在逻辑上等同于功率太低而无法检测到观察到的效果这一事实的重新表述α=0.05.

除了用于在研究之前决定所需的样本量(在Tanner Phillips 的出色回答中描述)之外,还有另一个需要关注统计功效的原因: 低统计功效可能是文件抽屉问题的征兆。

确实,如果您进行一项研究并获得显着的结果,那么您设计的统计能力在这一点上是无关紧要的。这是对已经发生的事情发生的可能性的计算,在您完成研究后,这对您来说并不是真正有用的信息。

然而,尽管功效较低,但还有另一种方法可以在研究中获得显着结果:运行大量试验(或使用大量不同的因变量,或以多种不同的方式分析数据,发挥您的想象力),其中每一个都是检测效果不佳,可能无法正常工作,然后发布偶然发现的重要内容。

因此,当论文的读者注意到其中描述的研究设计不足以可靠地检测其领域的典型效应大小时,他们必须决定哪个更有可能:

  • 研究作者有一个理论上的理由认为效应量大于他们领域的典型值,结果证明他们是对的。
  • 研究作者正在进行一些 p-hacking。

我们都希望生活在一个前者更普遍的世界里,但许多最依赖推论统计的科学领域目前正处于对后者频率的考虑之中

约翰·约阿尼迪斯 (John Ioannidis) 在他的论文Why Most Published Research Findings are False中最引人注目地提出了这一论点。

让我们考虑一个测试是否μ=0或者μ0. 好吧,让我们测量μ唉,测量结果总是存在统计差异。让我们称之为噪音的规模Δμ.

如果您的测量是低功率的,这意味着预期的效果大小,μ, 不比噪音水平大多少Δμ. 因此,如果我们似乎能够显着区分大小的新影响,我们应该担心μ从噪音。

稍微正式一点,如果研究是低功效的,而显着的结果很少见H0(由定义给出的速率由α),在预期效应大小下也很少见H1(由幂定义给出的速率)!那么我们能真正得出什么结论呢?出于这些考虑,伯恩鲍姆提出了一项针对该比率无效的证据措施,

powerα
因此,低功效意味着反对无效的证据较弱。

更正式地说,如果你用R,并考虑简单的假设,在给定显着结果的情况下,效果为真实的概率为

P=powerRpowerR+α
这简单地遵循贝叶斯定理。确实,低功效研究导致证据较弱。

例如,请参阅本文以进行进一步讨论(我相信还有更多)。