了解 Gelman 和 Carlin “超越功率计算:……”(2014 年)

机器算法验证 统计学意义 规模效应 统计能力 类型 i 和 ii 错误
2022-03-22 08:31:12

我正在阅读 Gelman & Carlin “超越功率计算:评估 S 型(符号)和 M 型(幅度)错误”(2014 年)。我试图理解主要思想,主要途径,但我很困惑。谁能帮我提炼精华?

这篇论文是这样的(如果我理解正确的话)。

  • 心理学的统计研究经常受到小样本的困扰。
  • 以给定研究中具有统计学意义的结果为条件,
    (1) 真实效应大小可能被严重高估,
    (2) 效应的符号很可能相反——除非样本量足够大。
  • 以上是使用人口中效应大小的先前猜测来显示的,并且该效应通常被认为是很小的。

我的第一个问题是,为什么要以统计显着性结果为条件?是为了反映发表偏倚吗?但情况似乎并非如此。那为什么呢?

我的第二个问题是,如果我自己进行研究,我是否应该以不同于以往的方式对待我的结果(我做频率统计,对贝叶斯不太熟悉)?例如,我将获取数据样本,估计模型并记录一些感兴趣的效应和围绕它的置信区间的点估计。我现在应该不相信我的结果吗?或者如果它在统计上显着,我应该不相信它?任何给定的先前改变是如何改变的?

(1)对于统计研究的“生产者”和(2)对于应用统计论文的读者来说,主要的收获是什么?

参考:

PS我认为这里的新元素是包含先前的信息,我不确定如何处理(来自常客范式)。

2个回答

我重新阅读了这篇论文,这次似乎更清楚了。现在@Glen_b 和@amoeba 的有用评论也很有意义。

整个讨论的出发点是已经获得了统计上显着的结果。在此条件下,我们估计的效应大小分布不同于没有条件的分布:

Pβ^(|β^ is statistically significant)Pβ^().
该论文似乎针对两个问题:

  1. 发表偏倚(仅发表具有统计学意义的结果)和
  2. 新研究的设计计算偏差(以太大的预期效应大小作为基准)。

好消息是,这两个问题都可以以令人满意的方式解决。

  1. 给定一个合理的预期效果大小βplausible, 估计效应量β^(假设它被发表是因为它具有统计学意义,否则它不会被发表),估计的标准误差s.e.(β^)和分布族(例如 Normal 或 Student'st) 的估计,我们可以回溯效应大小的无条件分布Pβ^().
  2. 使用以前的发现,在 1. 一个合理的效应大小的帮助下βplausible可以确定并用于研究设计。

简要回答我自己的两个问题:

  1. 这与发表偏倚有关,尽管不是在数据挖掘的意义上,而是在动力不足的研究背景下;有一个统计上显着的结果很可能属于,比如说,在 null 下的 5% 拒绝(因此 null 实际上是正确的,但我们碰巧最终远离它)而不是在替代下的拒绝(其中null 不正确,结果是“正版”)。
  2. 我应该谨慎拒绝零,因为统计上显着的结果很可能是由于机会(即使机会被限制为 5%)而不是由于“真正的”效应(因为低功率) .

如果您已经在应用贝叶斯分析并且不关心统计显着性部分,那么本文的另一个角度可能会有所帮助。

认为P是数量的后验 CDFβ(效应大小)你有兴趣估计。在贝叶斯情况下,随意使用符号并转而讨论概率密度函数,您将拥有基于一些可观察量的似然函数V, 和一些纯粹的先验β

p(β|V)p(V|β)p(β)

这里V很可能是一个向量,在最简单的情况下是多个独立观察的向量,从该向量产生似然项的通常乘积,变成对数项的总和,等等。该向量的长度V将是样本大小的参数化。在其他型号中,请说出位置p(V|β)是泊松,它可能会被汇总到泊松参数中,该参数也表示样本量的参数化。

现在假设你做一个假设βplausible基于文献综述或其他方式。您可以使用假设的数据生成过程P(V|β)β=βplausible生成模拟V,它表示如果您的模型指定良好,您将看到哪些数据,并且βplausible是真实的效果大小。

然后你可以做一些愚蠢的事情:转身并表现得像那个样本V是观察到的数据,并抽取一堆样本β从整体上看。从这些样本中,您可以计算本文中提到的统计数据。

链接论文中的数量,S 型错误和夸大比率,已经代表了几乎相同的东西。对于该效应大小,给定您的模型选择,这些将告诉您选择的样本大小的给定参数V,错误符号的后验概率是多少,以及模型产生的效应大小与假设的合理效应大小之间的预期(后验)比率是多少,因为你改变了V与样本量有关。

最棘手的部分是将后验“功率”解释为估计值的后验概率β至少与假设值一样大βplausible. 这不是衡量拒绝原假设的能力,因为这个概率的大小不会被用作频率论意义上的显着性衡量。

我真的不知道该怎么称呼它,只是说我在实践中有几个应用程序,在这些应用程序中,这是一个非常有用的指标来推理研究设计。它基本上为您提供了一些方法来查看您需要提供多少数据(假设您的数据是通过使用βplausible) 对于关于似然性和先验形状的特定假设,会导致一定大小的影响的某些“足够高”的后验概率。

在实践中,这对我最有帮助的地方是,需要将相同的通用模型重复应用于不同的数据集,但数据集之间的细微差别可能证明改变先验分布或使用不同的文献综述子集是合理的决定什么是务实的选择βplausible,然后粗略诊断这些针对不同数据集的调整是否会导致您需要非常多的数据才能使后验概率中的非平凡概率集中在分布的正确部分。

你必须小心,没有人会滥用这个“功率”指标,就像它与频率派的功率计算一样,这很难。但是所有这些指标对于前瞻性和回顾性设计分析非常有用,即使整个建模过程是贝叶斯并且不会参考任何统计显着性结果。