多次测试校正的范围

机器算法验证 多重比较 邦费罗尼 错误发现率
2022-03-22 01:32:59

有点奇怪的问题。今天在我四年级的生物统计学课上,我们正在讨论何时以及何时不使用多重测试校正,教授随口评论了一句。他问为什么我们不纠正自从我们开始做统计以来所做的每一个测试,因为它们都是(大部分)独立的,每次我们观察到一个结果,我们都会增加我们得出误报的可能性。事后他一笑置之,但我们为什么不这样做呢?我并不是说我们应该这样做,因为显然这很可笑,但是在校正测试方面有多远?

为简单起见,我们假设 alpha = 0.05,并假设每个测试 A、B 和 C 没有任何依赖关系,因此是独立的。如果我坐下来测试 A、B 和 C,无论是 T 测试还是其他什么,我显然必须针对多重校正进行调整,因为我取 0.95 的 3 次方,并且我有机会获得误报的天空火箭。但是,如果我在不同的日子做A、B、C,在不同的程序的背景下,并从中得出不同的结果,这和以前的情况有什么不同呢?我们还在观察这三个测试,它们仍然是独立的。

我想要达到的是我们所说的停止进行多次测试更正的逻辑边界。我们应该只为一个测试系列做,还是应该为整篇论文做,或者我们应该为我们曾经运行过的每一个测试做它?我了解如何使用多重测试校正,并使用 FDR / Bonferonni一直在工作。这个概念有点让我头晕目眩。

感谢您的时间。

编辑:在最近的问题中对此问题进行了扩展讨论

2个回答

我认为您的问题的答案是多次更正取决于您正在解决的问题的上下文。如果您首先考虑先验测试和事后测试,那么您可以看到多个测试的校正在哪里发挥作用。

假设您制定了一个假设,收集数据并检验该假设。在这种情况下显然不需要更正。如果您决定先验地对数据集进行两次或多次测试,您可能会或可能不会纠正多次测试。每个测试的更正可能不同,并且可以使用您的领域知识进行选择。另一方面,您可以简单地使用一种常用的校正方法。先验测试的数量通常很少。如果您有大量假设进行测试,您可能会决定使用更大的样本量、不同的样本等。换句话说,您可以设计您的实验,以便您尽可能有机会从您的假设中得出正确的结论。

另一方面,事后测试是对一组数据执行的,没有考虑任何特定假设。您在某种程度上是在挖掘数据,您肯定需要应用 Bonferroni 或 FDR(或您自己喜欢的)更正。

由于在您的一生中(或为一篇论文)收集的不同数据集通常是独立的并且会提出不同的问题,因此无需担心对曾经进行的每项测试进行校正。请记住,多次更正可以防止家庭错误(即保护一系列测试)而不是单个测试错误。如果您可以在逻辑上将您的测试分组到系列中,我认为您会为这些系列找到合适的多重比较界限。

您可以考虑全族错误率(FWER;有关更多信息,请参阅本文)。我想说,如果你运行一个实验来测试 A、B 和 C,你应该应用多次测试校正。如果您为每个 A、B 和 C 运行单独的实验,则不需要更正。

您可能会问为什么我们需要在每个实验的基础上控制错误率。这是我的意见。想象一下,某个 NIH 或 FDA 类型的机构要求您对您所做的每项测试进行纠正。假设您使用单个测试运行实验,这是您的第一个实验。这里不需要调整。现在考虑您再次使用单个测试运行新实验,但这次是您的实验。那么你将不得不使用0.05/1,000 = 0.00005 的谁愿意用如此低的进行任何实验?所以我的猜测是,当 Tukey 提出实验错误率时,他可能希望对每个实验公平,因为每个实验都需要金钱、时间和资源。1,000thαα