控制多个测试的理由与测试系列有关。测试族可以相互独立,当它们来自不同的数据集时通常是这种情况;如果是这样,Bonferroni 是控制 FWER 的好方法。但总的来说,在讨论多重性时,数据集的概念甚至都没有出现。
假设(错误地)不同数据集中的数据在设计上必须是独立的,而使用相同数据集计算的两个测试必须是相关的(也不一定正确)。为了证明和讨论要使用的测试校正类型,应该考虑“测试系列”。如果测试是相关的或相关的(也就是说,一个测试的值实际上取决于pp-值来自另一个测试),Bonferroni 将是保守的。(注意:一些相当冒险的统计实践可以使 Bonferroni 反保守,但这实际上归结为不透明。例如:测试主要假设 A。如果主要假设不重要,则测试假设 A 和 B 并使用 Bonferroni 进行控制。在这里,您只允许自己测试 B,因为 A 是否定的,这使得测试 A 和 B 负相关,即使这些测试的数据是独立的。)
当测试是独立的时,如您所知,Bonferroni 在控制 FWER 方面是非保守的。关于什么构成测试系列存在一些灰色地带。这可以通过考虑亚组分析来说明,这里全局检验可能显着也可能不显着,然后将样本总体划分为 K 个不同的组。这些组可能是独立的,因为它们是来自父数据集的独立数据的任意组合。您可以将它们视为 K 个不同的数据集,或 1 个划分的数据集,没关系。关键是您进行 K 测试。如果您报告全局假设:至少一组显示出与其他组的效果异质性,那么您不必控制多重比较。另一方面,如果您报告特定的亚组发现,你必须控制 K 次测试,你才能嗅出这个结果。简而言之,这就是 XKCD 果冻豆漫画。