为什么多重比较有问题?

机器算法验证 假设检验 多重比较
2022-01-19 11:15:58

我发现很难理解多重比较的真正问题。打个简单的比喻,一个人会做出很多决定,就会犯很多错误。因此采取了非常保守的预防措施,如 Bonferroni 校正,以使此人完全出错的概率尽可能低。

但是为什么我们关心这个人在他/她所做的所有决定中是否犯了任何错误,而不是错误决定的百分比

让我试着用另一个类比来解释让我感到困惑的地方。假设有两位法官,一位60岁,一位20岁。然后 Bonferroni 更正告诉那个 20 岁的人在决定执行死刑时要尽可能保守,因为他会再做很多年的法官,会做出更多的决定,所以他必须小心。但是60岁的人可能很快就要退休了,做的决定会更少,所以他比别人更粗心。但实际上,无论他们将做出多少决定,两位法官都应该同样谨慎或保守。我认为这个类比或多或少地转化为应用 Bonferroni 校正的实际问题,我觉得这违反直觉。

4个回答

你已经陈述了一些对 Bonferroni 修正的经典反驳论点。我不应该根据我将要进行的每个测试来调整我的 alpha 标准吗?这种荒谬的广告暗示是为什么有些人根本不相信 Bonferroni 风格的修正。有时,人们在他们的职业生涯中处理的数据类型是这样的,这不是问题。对于对每条新证据做出一个或很少决定的法官来说,这是一个非常有效的论点。但是,有 20 名被告的法官以及谁根据单一的大量数据(例如战争法庭)做出判断呢?

你忽略了争论的罐头部分。通常,科学家们正在寻找一些东西——一个小于 alpha 的 p 值。每一次寻找一个人的尝试都是对罐头的又一次打击。如果一个人对它进行足够的射击,最终会找到一个。因此,他们应该为此受到惩罚。

你协调这两个论点的方式是意识到它们都是正确的。最简单的解决方案是考虑测试单个数据集内的差异作为解决问题的方法,但是将校正范围扩大到该范围之外将是一个滑坡。

这在许多领域都是一个真正困难的问题,尤其是 FMRI,其中有数千个数据点被比较,而且肯定会有一些偶然出现。鉴于该领域在历史上一直是非常具有探索性的,人们必须做一些事情来纠正这样一个事实,即大脑的数百个区域看起来很重要,这纯粹是偶然的。因此,在该领域已经开发了许多调整标准的方法。

另一方面,在某些领域,一个变量最多只能查看 3 到 5 个级别,并且如果出现显着的方差分析,总是只测试每个组合。众所周知,这有一些问题(类型 1 错误),但并不是特别糟糕。

这取决于你的观点。FMRI 研究人员认识到对标准转变的真正需求。看着小 ANOVA 的人可能会觉得测试中有明显的东西。关于多重比较的正确保守观点是总是对它们做一些事情,但只基于单个数据集。任何新数据都会重置标准...除非您是贝叶斯主义者...

备受尊敬的统计学家在多重比较中采取了各种各样的立场。这是一个微妙的话题。如果有人认为这很简单,我想知道他们考虑了多少。

这是 Andrew Gelman 关于多重测试的一个有趣的贝叶斯观点:为什么我们(通常)不担心多重比较

与前面的评论相关,fMRI 研究人员应该记住的是,重要的是临床上重要的结果,而不是大脑 fMRI 上单个像素的密度变化。如果它不会导致临床改善/损害,那没关系。这是减少对多重比较的担忧的一种方法。

也可以看看:

  1. 鲍尔,P. (1991)。临床试验中的多项测试。统计医学,10(6),871-89;讨论 889-90。
  2. Proschan, MA 和 Waclawiw, MA (2000)。临床试验中多重性调整的实用指南。对照临床试验,21(6),527-39。
  3. 罗斯曼,KJ (1990)。多重比较不需要调整。流行病学(马萨诸塞州剑桥),1(1),43-6。
  4. 佩内格,电视(1998 年)。bonferroni 调整有什么问题。BMJ(临床研究版),316(7139),1236-8。

解决想法:当你反对时,我会接受这个案例, n独立随机变量(Xi)i=1,,n这样对于i=1,,n Xi取自N(θi,1). 我假设您想知道哪一个具有非零均值,正式地您想测试:

H0i:θi=0VSH1i:θi0

阈值的定义:你有n做出的决定,你可能有不同的目标。对于给定的测试i你肯定会选择一个门槛τi并决定不接受H0i如果|Xi|>τi.

不同的选项:您必须选择阈值τi为此,您有两个选择

  1. 为每个人选择相同的门槛

  2. 为每个人选择 不同的阈值(通常是数据阈值,见下文)。

不同的目标:这些选项可以驱动不同的目标,例如

  • 控制错误拒绝的概率H0i一个或多个i.

  • 控制错误警报率(或错误发现率)的期望

    你最终的目标是什么,使用数据阈值是个好主意。

我对您的问题的回答:您的直觉与选择数据阈值的主要启发式有关。它是以下内容(在 Holm 程序的起源,它比 Bonferoni 更强大):

想象一下,你已经为p最低|Xi|并且决定接受H0i 为他们所有人。然后你只需要制作np比较,你没有冒任何风险拒绝H0i错了!由于您没有使用预算,您可能会为剩余的测试承担更多风险并选择更大的阈值。

就你的法官而言:我假设(我想你也应该这样做)两位法官在他们的生活中都有相同的诬告预算。这位 60 岁的法官,如果过去不控告任何人,可能就不会那么保守了!但如果他已经提出了很多指控,他会更加保守,甚至可能比最年轻的法官还要保守。