统计显着性、可重复性和样本量(50 种灰色阴影)

机器算法验证 假设检验 统计学意义 p 值 可重复研究 可重复性
2022-04-06 11:48:23

阅读有关有意义的问题时,我想知道如何以正确的方式进行实验,考虑到在实践中样本量不能任意大。

虽然一些元研究处理确认偏差和类似的影响,但我想在这里关注重要性。我明白那个p=0.05在 20 次试验中有 1 次被任意选择带错路。阅读有关可重复性问题(NatureScience),似乎小样本量是主要问题。

考虑我发现的以下示例:

马特·莫蒂尔(弗吉尼亚大学)的假设是激进的左翼和右翼支持者会识别出较少的灰色阴影颜色。样本量为n2000他的意义在于p=0.01.

这表明它将非常重要。因为团队阅读了有关可重复性问题的信息,所以他们重复了实验n=1300(屈服.995检测原始效应大小的效应的能力α=.05) 并得到p=0.59这显然改变了一切。

参见Nosek、Spies 和 Motyl,2013 年,《科学乌托邦 II》。重组激励措施和实践,以促进可发布性的真相(开放获取)。

我的问题:

  1. 现在如果你第三次重复这个实验呢?p=0.049还是更低?你必须做第四次吗?我想防止这种情况发生,主要思想是重要性值。
  2. 对于这个例子,增加样本量会消除问题,或者只进行 1 次实验的正确方法是什么?或者换句话说,每个临床研究也只进行了 1 次,似乎还可以,我错过了什么?
  3. 如果需要进行元研究,那么为什么不需要元元研究(等等)?元研究也有p-价值。
  4. 可选:如果您阅读研究结果,如果该研究使用 p-hacking或选择性发布,似乎可能会出现偏差。怎么能检测到选择性出版,因为这意味着这个实验是“正确的”(就像灰色阴影研究一样)?
1个回答

你提出了几个重要的问题,一些侧重于假设检验,一些侧重于多重性,等等。这些是我的答案:

  1. 典型的方法是每次都重复实验分析,因为之前没有进行过研究。所以在标准的常客框架中,只有这个最终的 p 才算数。我发现它是错误的和浪费的,因为频率论元分析或贝叶斯综合也会从先前的研究中借用信息。确实请注意,没有信息先验的贝叶斯荟萃分析和包含相同研究的常客荟萃分析将提供非常相似(如果不相同)的推论估计。然而,请注意,食品和药物管理局对药物进行监管批准的典型方法通常无视先前的假设检验研究。

  2. 问题不只是样本量,主要与效果的精度和你认为有意义的效果量有关。将血压降低 0.001 mm Hg 的药物可能在大型试验中显示有效,但这种统计学意义在临床上没有意义(这就是为什么 ASA 和许多其他人正在推动废除 p 值并过渡到其他方法,例如置信区间)。在任何情况下,在典型的常客框架中,一项研究只能测试每个研究的单个假设(因此是单个测试),而所有其他分析都需要对多重性进行一些惩罚。

  3. 您确实可以对荟萃分析(荟萃流行病学研究)进行荟萃分析,但这主要会告知荟萃分析过程,而不是干预或感兴趣的效果大小。因此,如果您想简单地合并研究,则不需要元荟萃分析。

  4. 仅通过一项研究很难识别选择性出版。如果你有很多研究,你可以识别出特殊的模式(例如 p=0.049 比 p=0.051 更频繁地出现)。但是,如果您手头只有一项研究,那么唯一的希望在于查看预先指定的方案。