如果我们不应该进行事后功率计算,那么事后效应大小计算是否也无效?

机器算法验证 假设检验 统计能力 规模效应 事后 等价
2022-03-07 01:57:52

我们在这里有帖子讨论为什么事后功率计算存在缺陷。

我们可以捕捉到的影响大小的事后计算呢?这在逻辑上似乎是等价的。如果我们不应该计算检测效果的功效,那么我们不应该计算我们可以用功效检测到的效果。180%

(也许这需要一个单独的问题,但样本量和进行事后计算是否无效?(我在想 R 的包将如何计算一个如果你给其他人,就像我第一次加入 Cross Validated 时发布的那样。)但我主要想谈谈效应大小的事后计算。)ααpwr

例子

我们有来自两组的观察结果,并对他们的平均值进行 t 检验,得出:在时不显着。p=0.1626α=0.05

我们想声明组的等价性,但 SME 不确定效果大小有多小才能保证等价性。“告诉我们你能检测到什么样的效果,”他们告诉我。“我们会回来说这种影响是否重要。”

我知道我们喜欢使用的标准和的功效进行操作,因此我使用样本大小、水平、功效和观察到的方差来计算我可以检测到的效果大小。的效应大小。”α=0.0580%α0.25

如果我要翻转问题以获得感兴趣的效果大小,例如,并计算出我们有的功率来检测这种差异,这似乎是一个无效的事后功率计算。似乎事后效应大小计算同样无效。0.390%

编辑

实际上,它来自 Rebecca A. Betensky 的一篇论文:“The p-Value Requires Context, Not a Threshold”她展示了如果我们声明一个感兴趣的效应大小该怎么做。我可以想象她的方法被转过来让我回答我们可以检测到什么样的效果。

1个回答

问题在于“事后效应大小”的使用,而不是其计算无效。“事后效应大小”基本上是对总体参数的估计(例如,两组之间的平均差和标准差,而不是标准误差!),其精度可能会受到研究设计的影响,但不会由研究确定设计。毕竟,使用来自试点研究的“事后效应大小”估计来设计最终研究是一种很好的做法。

正如您所注意到的,这里的许多线程都解决了一个问题,即基于“事后效应大小”的事后功率计算是没有意义的。正如Russ Lenth 所说

你得到了数据,做了分析,但没有达到“意义”。因此,您可以回顾性地计算能力,以查看测试是否足够强大。这是一个空洞的问题。当然它还不够强大——这就是为什么结果并不重要。功效计算对设计有用,而不是分析。

在您的示例中,计算“事后效应大小”同样没有错误。错误在于您的客户试图使用“事后效应大小”将“无关紧要”的零假设测试逆向工程为事后等效性测试。零假设检验和等价检验根本不同。事后等价测试的尝试不仅没有意义;他们具有误导性。此页面提供更多详细信息和参考文献。Walker 和 Nowacki特别强调:

确定等效余量是等效/非劣效性检验中最关键的步骤……应在记录数据之前确定等效余量的值。这对于将 I 型错误保持在所需水平至关重要......δ

使用传统的比较测试来建立等效性/非劣效性经常会导致错误的结论。原因有两个。首先,证明的责任在于错误的假设,即差异的假设……错误地得出等价的风险可能非常高。另一个原因是没有考虑等价的边际,因此没有很好地定义等价的概念。

与往常一样,问题的正确说明应先于研究设计和数据分析。在得到结果之后改变假设是问题所在。