先验功率分析本质上是无用的吗?

机器算法验证 假设检验 统计能力 规模效应 方法
2022-01-20 17:31:58

上周我参加了人格与社会心理学协会的一次会议,在那里我看到了 Uri Simonsohn 的演讲,其前提是使用先验功效分析来确定样本量基本上是无用的,因为它的结果对假设非常敏感。

当然,这种说法违背了我在方法课上所教的内容,也违背了许多著名方法学家的建议(最著名的是Cohen,1992 年),因此 Uri 提出了一些与他的说法有关的证据。我试图在下面重新创建其中的一些证据。

为简单起见,让我们假设您有两组观察结果并猜测效应大小(通过标准化平均差测量)为标准功效计算(使用下面的软件包完成)将告诉您需要次观察才能获得此设计的 80% 功效。.5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

然而,通常我们对预期效果大小的猜测(至少在我的研究领域的社会科学中)只是——非常粗略的猜测。如果我们对效应大小的猜测有点偏离会发生什么?快速功效计算告诉您,如果效应大小是而不是,则您需要观察值 -效应大小需要足够功效所需数量的倍。同样,如果效应大小为,您只需要观察值,即您需要有足够的功效来检测.4.52001.56.5.690.50. 实际上,估计观测值的范围相当大 -90200

对此问题的一种回应是,您不是纯粹猜测影响的大小,而是通过过去的文献或试点测试收集有关影响大小的证据。当然,如果您正在进行试点测试,您会希望您的试点测试足够小,以至于您不仅仅是为了确定运行研究所需的样本量而运行您的研究版本(即,您将希望试点测试中使用的样本量小于您研究的样本量)。

Uri Simonsohn 认为,为了确定功效分析中使用的效应大小而进行的试点测试是没有用的。考虑以下我运行的模拟R该模拟假设总体效应大小为然后它会进行次大小为 40 的“试点测试”,并从 10000 次试点测试中的每一个中列出推荐的.51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

下面是基于此模拟的密度图。我省略个试点测试,这些测试推荐了超过个的观察值,以使图像更易于解释。即使关注不太极端的模拟结果,试点测试推荐204500Ns1000

在此处输入图像描述

当然,我确信对假设问题的敏感性只会随着设计变得更加复杂而变得更糟。例如,在需要指定随机效应结构的设计中,随机效应结构的性质将对设计的能力产生重大影响。

那么,大家对这个论点怎么看呢?先验功率分析本质上是无用的吗?如果是,那么研究人员应该如何规划他们的研究规模?

1个回答

这里的基本问题是真实的,并且在统计学中是众所周知的。然而,他的解释/主张是极端的。有几个问题需要讨论:

首先,功率不会随着的变化而快速变化。(具体来说,它作为的函数而变化,因此要将采样分布的标准偏差减半,您需要将N四倍等。)但是,功率对效应大小非常敏感。此外,除非您的估计功率为 ,否则功率随效应大小的变化是不对称的。如果您尝试使用的功率,则功率会随着 Cohen's d 的减少而迅速下降,而不是随着 Cohen's等效增加而增加例如,当从开始,NNN50%80%ddd=.5N=128,如果您的观察次数减少 20 次,功效会下降,但如果您有 20 次以上的观察,功效会增加另一方面,如果真实效果大小,则功率将,但如果,则仅这种不对称性和不同的灵敏度可以在下图中看到。 7.9%5.5%.116.9%.112.6%

在此处输入图像描述

如果您根据先前研究估计的效果进行工作,例如荟萃分析或试点研究,则解决方案是将您对真实效果大小的不确定性纳入功效计算中。理想情况下,这将涉及对可能影响大小的整个分布进行整合。对于大多数应用程序来说,这可能是一座太远的桥梁,但一个快速而肮脏的策略是计算几个可能的效应大小的功率,你估计的 Cohen's正负 1 和 2 个标准偏差,然后使用概率获得加权平均值这些分位数的密度作为权重。 d

如果您正在研究以前从未研究过的东西,这并不重要。你知道你关心的效果大小。实际上,效果要么那么大(或更大),要么更小(甚至可能为 0)。在功效分析中使用您关心的效应大小将是有效的,并将为您的假设提供适当的检验。如果您关心的效果大小是真实值,那么您将有(比如说)的“显着性”机会。如果由于抽样误差,您的研究中实现的效应量较小(较大),您的结果将不那么显着(更多),甚至不显着。这就是它应该工作的方式。 80%

其次,关于权力分析(先验或其他方式)依赖于假设的更广泛主张,尚不清楚该论点如何解释。他们当然会。其他一切也是如此。不进行功率分析,而只是根据您从帽子中挑选出来的数字收集大量数据,然后分析您的数据,不会改善这种情况。此外,您的结果分析仍将依赖于假设,就像所有分析(功率或其他)总是做的那样。相反,如果你决定继续收集数据并重新分析它们,直到你得到一张你喜欢或厌倦它的图片,那将是那么有效的(并且仍然需要假设说话者可能看不到,但是仍然存在)。简单地说,在研究和数据分析中做出假设这一事实是无法回避的

您可能会发现这些感兴趣的资源: