如果结果具有统计显着性,则报告功效

机器算法验证 统计能力 报告
2022-03-15 03:45:22

我们提交了一篇论文,报告了具有统计学意义的结果。一位审稿人要求我们报告检测显着关联的能力。由于之前有一篇关于这个问题的论文,我们可以使用该论文的效果大小来进行计算。但是,我们对此评论感到惊讶,并且很高兴知道您的意见是什么,以及您是否知道在结果很重要时讨论后验功率计算的参考文献。


非常感谢您的回复。

我应该更清楚地说明我们使用大型数据集来运行这些分析,因此这项研究不太可能被低估。但是,它涉及复杂的设计,除了运行仿真之外,没有简单的方法来计算功率。我们不熟悉计算能力的模拟,所以我试图避免这种情况:-)

3个回答

背景:在 OP 澄清他们正在使用大型数据集之前,我写了这个答案,因此这项研究(可能)有足够的力量。在我的帖子中,我考虑了一项更常见的情况,即一项具有“重大发现”的小型研究。例如,想象一下,正在审查的文章在先前关于相关音素的研究报告的估计值在 [0.9, 1.1] 范围内的领域中提出了 1.25 的估计值。文章的作者如何回应审稿人的请求,即事后估计检测大小为 1.25 的效应的能力?


很难做出合理的论点,即你的研究是否动力不足并不重要。如果一项研究的功效较低并且拒绝了原假设,则估计值可能会向上偏差。功率越小,效应量估计值就越膨胀。是的,您很幸运能够获得反对零假设的证据,但也可能过于乐观。审稿人知道这一点,因此他询问您的研究需要多少力量才能检测到您检测到的效果。

做事后功率估计也是不合理的。这是关于 CV 的热门话题;请参阅下面的参考资料。简而言之——如果你的研究确实缺乏动力——通过进行事后功效分析,你将通过高估功效来复杂化效应估计的问题。

好吧,坏消息已经够多了。你如何回应审稿人?追溯计算功率是没有意义的,因为您的研究已经完成。相反,计算感兴趣的效果的置信区间并强调估计,而不是假设检验。如果您的研究的功效较低,则间隔会很宽(因为功效低意味着我们无法做出精确的估计)。如果你的研究的力量很高,间隔会很紧,令人信服地证明你从数据中学到了多少。

参考

JM Hoenig 和 DM Heisey。滥用权力。美国统计学家,55(1):19–24, 2001.
A. Gelman。不要使用观察到的效应大小估计来计算事后功率。Annals of Surgery , 269(1), 2019。
动力不足的研究是否增加了假阳性的可能性?
我的实验中的事后能力是什么?这个怎么计算?
为什么只报告显着效果的研究的功效并不总是 100%?
非显着结果的事后功效分析?


该模拟表明,来自动力不足研究的“重要”估计被夸大了。

library("pwr")
library("tidyverse")

# Choose settings for an underpowered study

mu0 <- 0
mu <- 0.1

sigma <- 1
alpha <- 0.05
power <- 0.5

pwr.t.test(d = (mu - mu0) / sigma, power = power, sig.level = alpha, type = "one.sample")
#> 
#>      One-sample t test power calculation 
#> 
#>               n = 386.0261
#>               d = 0.1
#>       sig.level = 0.05
#>           power = 0.5
#>     alternative = two.sided

# Sample size to achieve 50% power to detect mean 0.1 with a one-sided t-test
n <- 387

# Simulate 1,000 studies with low power

set.seed(123)
reps <- 1000

studies <-
  tibble(
    study = rep(seq(reps), each = n),
    x = rnorm(reps * n, mean = mu, sd = sigma)
  )

results <- studies %>%
  group_by(
    study
  ) %>%
  group_modify(
    ~ broom::tidy(t.test(.))
  )

# Plot a histogram of the estimate effects for those studies where the null was rejected.

results %>%
  # We are only interested in studies where the null is rejected
  filter(
    p.value < alpha
  ) %>%
  ggplot(
    aes(estimate)
  ) +
  geom_histogram(
    bins = 33
  ) +
  geom_vline(
    xintercept = mu,
    color = "red"
  ) +
  labs(
    x = glue::glue("estimate of true effect {mu} in studies with {100*power}% power"),
    y = "",
    title = "\"Significant\" effect estimates from underpowered studies are inflated"
  )

reprex 包于 2022-04-30 创建(v2.0.1)

粗略地说,在低功效检验中观察到显着结果意味着观察到的结果在原假设和备择假设下不太可能。因此,将这样的结果解释为支持替代假设的证据可能是有问题的。

现在您可以说这只是一个错误的解释(拒绝零假设并不意味着接受替代方案),但是如果没有证据支持某些替代方案,则不清楚如何解释结果。

作为一个极端的例子,假设有人试图通过抛硬币 5 次来拒绝一些任意的零假设(例如,全球变暖)。如果他们足够幸运并且连续观察到 5 个正面,他们可以声称结果显着(p<0.05),因此他们拒绝原假设。但是,基于抛硬币明确声称不存在全球变暖是完全没有意义的。

这里的问题是这样的检验没有功效(更准确地说,检验的功效等于它的大小) - 在两种假设下检验统计量的分布完全相同。

请注意,在贝叶斯分析中,这些问题不存在 - 例如,在上述情况下,后验概率将与两个假设的先验概率相等,因为测试不携带任何相关信息。这是频率论数量有时会出现问题的一个例子。

观察到的效应的功效通常等于与 p 值(和显着性水平)的简单关系,因为 p 值和功效都取决于效应大小与零效应相差多少标准差。

让我们考虑这个简单的模型,其中您有一个观察值,其似然函数可以近似为正态分布。假设显着性水平为 5%(或离零效应大约 2 个偏差),我们观察到 p 值为 1.24%(或离零效应大约 2.5 个偏差)的效应,那么观察到的效应的功效是相等的大约为 69.1%(鉴于真实效果相差 3 个偏差,观察到的效果与零效果相差超过 2 个偏差的概率)。

您有一个更复杂的模型,但通常估计值大约等于正态分布变量。

例子