如果主效应显着,是否对调整多个对比的 alpha 达成共识?

机器算法验证 方差分析 多重比较 事后 对比 邦费罗尼
2022-03-13 07:27:22

在与几位统计学家交谈后,阅读了一些书籍部分、互联网文章和此类论坛后,我仍然不清楚事后测试和对比的多重调整。

让我们举个例子:有 4 组受试者——#1 是对照组,第 2-4 组用不同的药物治疗。我们试图找出与对照组相比,哪种药物具有显着效果。

现在我们运行方差分析,假设药物的主要作用是显着的。这意味着一些组彼此不同,这并没有告诉我们任何有用的信息。本质上,我们需要比较的非正交对比:

  • 1对2
  • 1对3
  • 1对4

这将告诉我们哪种药物与对照受试者相比有任何影响。这就是问题开始的地方。一些消息来源说,如果您运行 3 种对比,则需要应用 Bonferroni、Tukey、Sidak 等多重调整。这些测试将 alpha (0.05) 的值降低到更严格的水平。我们有 3 个比较,因此对于 Bonferroni,比较需要才能显着(0.05/3)。但其他消息来源说,如果主效应显着,则无需应用校正,您可以运行 Fisher 的 LSD,p<0.017α=0.05. 试图弄清楚这一点一直是一个令人头疼的问题,所以我整理了一份关于多重比较的最重要问题的清单,看看是否有任何共识,或者至少有一个更普遍接受的解决方案:

  1. 如果主效应显着,是否有必要针对多重性调整对比度?如果答案是“有时”,请说明条件。

    回答: 似乎只有当它们是非正交的时,才需要针对多重性调整对比度。正交对比似乎不需要校正。DSUS,第 455 页

  2. 假设没有条件阻止使用任何特定类型的校正,是否可以只使用最强大/最不保守的校正?该列表包括 Bonferroni、Sidak、Tukey、Holm-Sidak、Holm-Bonferroni、Dunnett 等。如果不能接受,请详细说明。我已经阅读了不同的来源陈述相反的论点。

    ANSWER : Dave Howell 自己说:“在许多不同的测试下计算临界值的大小,然后选择具有最小临界值的测试是完全可以接受的。” 重复测量的多重比较

  3. 鉴于上述答案,如果我们能看到关于哪些多重性调整测试在什么条件下具有更大效力的一般准则,将会很有帮助。例如,对于小样本量,Tukey 似乎过于保守,而 Bonferroni 比 Sidak 更保守。我读过 Holm-Sidak 和 Holchberg 的带有 Games-Howell 程序的 GT2 非常强大,尤其是对于方差不等的不平衡数据(DSUS,第 459 页)。

  4. 事后测试本质上是一组对比。似乎如果给定的分析和软件(例如 SPSS)可以使用事后处理,那么运行对比是没有意义的,除非您有兴趣将几个组组合在一起,而事后处理无法做到这一点。否则,运行 post hoc 会容易得多,因为它会自动应用必要的更正。请澄清这种理解是否正确。

    解答:我在 SPSS 中运行了一些 ANOVA 模拟,发现事后 LSD p 值(未针对多重性进行调整)与对比 p 值相同。未经调整的事后确实必须与对比度相同。因此,只有在事后无法处理给定假设时才应使用对比。例如,如果您尝试仅比较数据集中的某些组,或者如果您的假设需要组组合,例如对照组与 3 个治疗组的平均值,则事后将不起作用。在所有其他情况下,事后分析使执行计算变得更加容易和不那么繁琐。

  5. 多重性校正问题如何应用于简单的主效应?这适用于您在每个组中有多个级别(例如重复测量)并且想要准确找出哪些组在给定级别上不同的情况。

  6. 多重性校正的讨论是否适用于混合模型,就像它适用于方差分析一样,或者这里的方法不同?
  7. 似乎可以接受的是,不需要显着的 ANOVA 来运行针对多重性调整的事后(Hsu,p.177Motulsky)。因此,如果特定假设不需要方差分析,是否有更好/更有效的方法来运行“事后”,例如根本不必运行方差分析?

    回答(部分?):在我看来,由于 t 检验是 ANOVA 的一种特殊情况,我们应该能够通过运行几个 t 检验来避免运行和 ANOVA。但这会很麻烦,因为在 t 检验完成后,它们的 p 值将不得不手动调整。做一个 Bonferroni 调整并不难,但像 Dunnett 或 Holm-Sidak 这样的东西就不是很清楚了。如果有重复测量,我也不清楚如何使用 t 检验。这个答案需要扩展或更正。

  8. 最后,是否可以安全地假设,如果主效应不显着,那么未经调整的事后/对比就不可能了?

我希望有一个健康的讨论,如果不是决定性的答案。当然,后者更可取。我的观点是,如果统计学家之间没有就给定主题达成明确共识,那么最终用户(例如研究人员)基本上应该可以自由使用任何适合他们需要的东西。

2015 年 4月 27 日更新:没有人做出任何贡献的事实表明,即使在更高级的统计用户中,对多重性调整的理解也很差。我用有趣的参考/答案更新了一些观点。不过需要更多的输入。


从 2016 年 8 月 3 日起对@Bonferroni 的回答作出回应。

感谢您的参考。自从我的 OP 以来,我已经阅读了更多关于这些问题的内容,并且还与一些统计学家进行了交谈。总的来说,我认为你对一个没有明确共识的问题采取了过于严格的方法。我不知道 Frane 的资历,他也没有那么多的出版物/引用,但对于反对意见,请参阅 Nakagawa,他在统计数据方面有着良好的记录,包括混合模型等先进技术。忘记关于计划与计划外或正交与非正交比较的争论,Nakagawa谈到完全摆脱多重调整并为此提出有趣的观点。持有这种观点的不止他一个人。

我不知道您是否有具体的参考资料来说明为什么选择最强大的调整方法是有问题的。根据我的参考,对此也没有共识。我认为使用最强大的调整没有问题,例如 Dunnett 或顺序 Holm-Sidak(如果不需要 CI)。所以如果有人先验地知道这个理论,他将应用最强大的测试。但是那些不知道的人会简单地运行几个测试并通过反复试验偶然发现最强大的测试。说每次调整都是一个单独的测试,本身就需要调整是有问题的。例如,如果您运行回归然后发现残差太偏斜并且必须在此之后运行不同的测试怎么办?按照这种逻辑,这也需要进行多重调整,但我从未见过任何规则。

请记住,在绝大多数科学研究中,家庭方面的错误是没有调整的。事实上,像 SPSS 和 SAS 这样的高级统计软件包甚至没有办法调整它(我实际上和 IBM 谈过这个)。如果给定的实验假设有 20 次重复测量,那么在大多数实际实验设计中,考虑到家庭错误将消除测试的力量。

我希望对这个线程有更多的贡献。最终,随着我一直在学习更多内容,我将对 OP 进行重大编辑。我读的统计论文越多,就越清楚统计中有多少艺术。

3个回答
  1. 只有非正交比较需要调整的想法是一个神话。参见 Frane (2015) 的第 6.1 节:http: //jrp.icaap.org/index.php/jrp/article/view/514/417

  2. 一般来说,计算几个替代统计数据并选择一个给你最喜欢的答案的策略是一个糟糕的策略,并且可能导致错误膨胀(因为它本身就是多重比较的一种形式)。最好在查看数据之前制定统计计划。

  3. Bonferroni 没有 Holm 强大。Holm 不如其他一些需要更多假设的程序强大。Sidak 仅比 Bonferroni 强大一点,并且需要假设非负依赖。如果您只想比较每种治疗以进行控制,而不是将不同的治疗相互比较,您可以使用 Dunnett 程序(专为此目的而设计)。

  4. 不确定您所说的“事后”是什么意思。不幸的是,不同的人以不同的方式使用该术语。

  5. 每当您进行多个比较时,多重性都适用。

  6. 见 5。

  7. 如果您对综合结果不感兴趣,则没有理由执行综合测试。正如您所观察到的,您可以直接进行单独的测试,针对多重性进行调整(尽管对这些测试使用综合错误术语可能是明智的,这在某些情况下可以提供更多的功能)。有些人进行综合测试,然后使用Fisher 的LSD 方法(即进行不调整的个体比较),但这通常不能控制家庭错误率,因此可能难以证明是正确的。

  8. 我不明白为什么主效应的重要性会固有地影响您是否调整其他测试。


回复 @Sophocole 于 2016 年 8 月 5 日对 @Bonferroni 于 2016 年 8 月 3 日的回复。

我不知道您在 IBM 与谁交谈过,但 SPSS 有几种方法来控制家庭错误率,包括 Bonferroni、Tukey 和 Dunnett 测试(只需谷歌“SPSS 中的多重比较”,您就会看到)。任何其他有信誉的统计软件包也是如此,包括 SAS 和 R。如果您使用像 Bonferroni 这样的简单方法,您可能可以在脑海中进行调整。

关于对单个比较进行多次测试并选择最适合您答案的测试,很容易看出问题所在。如果您尝试一种以 5% 的比率产生错误的方法,但随后您将获得第二、第三和第四次使用替代方法的机会,显然错误率将大于 5%。这就像玩飞镖并在飞镖板上稍微不同的位置设置第二、第三和第四个靶心——显然,你增加了幸运的机会。

如果您处于研究的早期阶段,您只是在探索并且错误率不是一个大问题,那么无论如何,测试您的心脏并且不要为调整而烦恼 - 您甚至可以只需查看图表和均值差异,如果适合您的需要,则根本不进行任何正式测试。但是,如果您试图根据您的结果发表声明或出售治疗方法,您可能需要严格的统计数据。而且,如果您想获得 FDA 批准的药物,您可以忘记在错误控制方面松懈!

顺便说一句,您可能想再次阅读中川的那篇文章。似乎他并不是在反对“完全摆脱多重性调整”。他显然认为 Bonferroni 和 Holm 通常对行为生态学研究过于保守,但他确实支持错误发现率控制。

不管有什么价值,我都提供以下评论:

  • 我说不应该或不可能达成任何共识(或至少有一种方式来做到这一点),因为有多种方式来描述这种调整,任何调整多重性的后果的严重性取决于主题,政治,经济,一年中的时间,历史,时间敏感性等。选择方法的充分信息不是统计领域固有的。

  • 但是,我不认为如果有人同意没有达成共识,最终用户就可以做任何适合他们需要的事情。这部分是因为我们所有人都可以很好地将各种事情合理化。

  • 多重性不仅仅以犯至少一个 I 类错误的概率为特征。一个人可能会满足于保持至少四个 I 类错误不大于指定值的概率。对于大量比较,指定和使用错误发现率可能更有意义。

  • 为什么选择方法取决于主效应是否显着?我认为需要在数据收集之前(或至少在查看结果之前)做出关于做什么的决定,并且不应受到任何一组
    结果的影响。

  • 如果感兴趣的比较独立存在,则不需要多重比较调整。而且我没有看到正交对比自动获得免费通行证。两个正交对比构成一组多重比较。

简而言之,要理解的重要问题是(1)通过任何特定的多重比较调整,您得到(和没有得到)什么,(2)调整可以有许多特征,以及(3)主题信息是必不可少的做一个决定。

TL;博士

关于您问题中的示例,您提到了三个测试:

  1. H0(1):μ1=μ2 versus H1(1):μ1μ2
  2. H0(2):μ1=μ3 versus H1(2):μ1μ3
  3. H0(3):μ1=μ4 versus H1(3):μ1μ4

Let us take one individual test, e.g. the first one. As explained in What follows if we fail to reject the null hypothesis?, the goal is to find statistical evidence for H1, using one value for a test-statistic observed from a sample. Based on the value of that test statistic in your sample you may conclude that H1 is valid but you make type I errors. Such a type I error occurs whenever you are ''unlucky'' with the sample; it could be because of randomness the sample yields a value that rejects H0 because of ''bad luck''. The probability that such a type I error occurs, or the probability that you have bad luck with the sample, is equal (for continuous rv) to the significance level α.

If I now use one and the same sample and I perform three tests on it, then the probability that I have bad luck with the sample for at least one of the three tests will be at least α, so the type I erro increases. If the three tests are independent the probability of a type I error in at least one of the three tests is 1(1α)3

see also Family-wise error boundary: Does re-using data sets on different studies of independent questions lead to multiple testing problems?