数据集的定义是什么(出于 Bonferroni 的目的)?

机器算法验证 多重比较
2022-03-20 08:51:40

对于何时应将一系列测试视为多重比较以及何时应应用 p 值校正(如 Bonferroni),我很难找到明确的规则。

我知道每次使用相同的数据集测试多个假设时都必须进行更正。一个经典的例子是对来自 ANOVA 的数据的事后 Tukey 测试。

但是,“数据集”的正确定义是什么?每当两个测试共享一个样本时,它们是同一个数据集吗?他们需要共享所有样本吗?测试必须共享相同的假设?

我在这个论坛和网上发现了很多与我相关的问题,但似乎都处理了例子。如果他们的特殊情况是或不是多重比较,以及是否需要更正,但似乎没有一个客观定义“数据集”。

2个回答

控制多个测试的理由与测试系列有关。测试族可以相互独立,当它们来自不同的数据集时通常是这种情况;如果是这样,Bonferroni 是控制 FWER 的好方法。但总的来说,在讨论多重性时,数据集的概念甚至都没有出现。

假设(错误地)不同数据集中的数据在设计上必须是独立的,而使用相同数据集计算的两个测试必须是相关的(也不一定正确)。为了证明和讨论要使用的测试校正类型,应该考虑“测试系列”。如果测试是相关的或相关的(也就是说,一个测试的值实际上取决于pp-值来自另一个测试),Bonferroni 将是保守的。(注意:一些相当冒险的统计实践可以使 Bonferroni 反保守,但这实际上归结为不透明。例如:测试主要假设 A。如果主要假设不重要,则测试假设 A 和 B 并使用 Bonferroni 进行控制。在这里,您只允许自己测试 B,因为 A 是否定的,这使得测试 A 和 B 负相关,即使这些测试的数据是独立的。)

当测试是独立的时,如您所知,Bonferroni 在控制 FWER 方面是非保守的。关于什么构成测试系列存在一些灰色地带。这可以通过考虑亚组分析来说明,这里全局检验可能显着也可能不显着,然后将样本总体划分为 K 个不同的组。这些组可能是独立的,因为它们是来自父数据集的独立数据的任意组合。您可以将它们视为 K 个不同的数据集,或 1 个划分的数据集,没关系。关键是您进行 K 测试。如果您报告全局假设:至少一组显示出与其他组的效果异质性,那么您不必控制多重比较。另一方面,如果您报告特定的亚组发现,你必须控制 K 次测试,你才能嗅出这个结果。简而言之,这就是 XKCD 果冻豆漫画。

这是一个比人们想象的要困难得多的问题,我怀疑是否有明确的答案。当我们谈论出于监管目的的临床试验时(无论监管机构怎么说),答案是相对明确的。我的印象是,这是一个务实的传统领域,在每个科学领域内以一种特别的、不一定在哲学上一致的方式发展。在某些领域通常(但不总是)遵循一些标准约定。然而,即使在每项研究的 I 类错误率控制有很多传统的领域(例如医学),关于这个话题仍然存在争议。