如果多重比较是“计划的”,你还需要纠正多重比较吗?

机器算法验证 假设检验 多重比较
2022-02-16 06:05:11

我正在查看一篇已执行 >15 次单独的 2x2 卡方测试的论文。我建议他们需要纠正多重比较,但他们回答说所有比较都是计划好的,因此没有必要。

我觉得这一定不正确,但找不到任何明确说明情况是否如此的资源。

有人可以帮忙吗?


更新:

感谢您提供的所有非常有帮助的回复。为响应@gung 要求提供有关研究和分析的更多信息,他们正在比较两种类型的参与者(学生、非学生)在两个条件下跨越三个时间段的计数数据。多个 2x2 卡方检验针对每种类型的参与者在每个条件下比较每个时间段(如果有意义的话;例如学生,条件 1,时间段 1 与时间段 2),因此所有分析都在测试相同的假设.

4个回答

恕我直言,这是一个复杂的问题,我想就这种情况发表三点评论。

首先,一般来说,我会更关注您是否面临一项验证性研究,其中包含一组在论证性背景下定义的良好假设,还是一项解释性研究,其中观察到许多可能的指标,而不是计划与否(因为你可以只需计划进行所有可能的比较)。

其次,我还将关注如何讨论生成的 p 值。它们是单独用于提供一组明确的结论,还是作为证据和缺乏证据共同讨论?

最后,我将讨论由 >15 个单独的卡方检验得出的 >15 个假设实际上是可以总结的几个假设(可能是单个假设)的表达的可能性。

更一般地说,无论是否预先指定假设,是否纠正多重比较都是您在 I 型错误中包含的内容的问题。通过不对 MC 进行校正,您只能保持每个比较类型 I 错误率控制。因此,在进行大量比较的情况下,您的家庭类型 I 错误率很高,因此更容易出现错误发现。

如果你用“有计划的”一词代替“有计划的”,这可能有助于消除作者提出的论点。考虑对相同数据进行两种不同的统计分析:

  1. 一种“有预谋的犯罪”,其中每个可能的假设检验都由“统计犯罪策划者”预先组合布置,计划是系统地尝试每一个,并选择具有最小 p 值的检验作为“关键发现”在论文的结果、讨论和结论部分进行宣传,实际上也是标题。
  2. 一种“激情犯罪”,最初的意图只是用一个假设来面对数据,但是“嗯……一件事导致另一件事”和多个临时假设测试“只是发生”在科学激情的热潮中从数据中学习“某事……任何事!

无论哪种方式,它都是“谋杀”——问题是它是一级还是二级。显然,第一个在道德上更有问题。在我看来,这里的作者似乎在试图声称这不是谋杀,因为它是有预谋的。

鉴于您对设计的更新,我建议他们使用某种形式的对数线性模型来一次使用所有数据。进行他们所做的零碎分析似乎 (a) 效率低下 (b) 不科学,因为它测试了 15 个假设,而实际假设肯定更少。

我不喜欢将多重性作为条件反射来纠正,但在这种情况下,如果他们拒绝更深入的分析方法,那么我建议他们纠正。

本文直接解决了您的问题:http: //jrp.icaap.org/index.php/jrp/article/view/514/417

(Frane, AV,“计划假设检验不一定免于多重性调整”,研究实践杂志,2015 年)