在与几位统计学家交谈后,阅读了一些书籍部分、互联网文章和此类论坛后,我仍然不清楚事后测试和对比的多重调整。
让我们举个例子:有 4 组受试者——#1 是对照组,第 2-4 组用不同的药物治疗。我们试图找出与对照组相比,哪种药物具有显着效果。
现在我们运行方差分析,假设药物的主要作用是显着的。这意味着一些组彼此不同,这并没有告诉我们任何有用的信息。本质上,我们需要比较的非正交对比:
- 1对2
- 1对3
- 1对4
这将告诉我们哪种药物与对照受试者相比有任何影响。这就是问题开始的地方。一些消息来源说,如果您运行 3 种对比,则需要应用 Bonferroni、Tukey、Sidak 等多重调整。这些测试将 alpha (0.05) 的值降低到更严格的水平。我们有 3 个比较,因此对于 Bonferroni,比较需要才能显着(0.05/3)。但其他消息来源说,如果主效应显着,则无需应用校正,您可以运行 Fisher 的 LSD,. 试图弄清楚这一点一直是一个令人头疼的问题,所以我整理了一份关于多重比较的最重要问题的清单,看看是否有任何共识,或者至少有一个更普遍接受的解决方案:
如果主效应显着,是否有必要针对多重性调整对比度?如果答案是“有时”,请说明条件。
回答: 似乎只有当它们是非正交的时,才需要针对多重性调整对比度。正交对比似乎不需要校正。(DSUS,第 455 页)
假设没有条件阻止使用任何特定类型的校正,是否可以只使用最强大/最不保守的校正?该列表包括 Bonferroni、Sidak、Tukey、Holm-Sidak、Holm-Bonferroni、Dunnett 等。如果不能接受,请详细说明。我已经阅读了不同的来源陈述相反的论点。
ANSWER : Dave Howell 自己说:“在许多不同的测试下计算临界值的大小,然后选择具有最小临界值的测试是完全可以接受的。” (重复测量的多重比较)
鉴于上述答案,如果我们能看到关于哪些多重性调整测试在什么条件下具有更大效力的一般准则,将会很有帮助。例如,对于小样本量,Tukey 似乎过于保守,而 Bonferroni 比 Sidak 更保守。我读过 Holm-Sidak 和 Holchberg 的带有 Games-Howell 程序的 GT2 非常强大,尤其是对于方差不等的不平衡数据(DSUS,第 459 页)。
事后测试本质上是一组对比。似乎如果给定的分析和软件(例如 SPSS)可以使用事后处理,那么运行对比是没有意义的,除非您有兴趣将几个组组合在一起,而事后处理无法做到这一点。否则,运行 post hoc 会容易得多,因为它会自动应用必要的更正。请澄清这种理解是否正确。
解答:我在 SPSS 中运行了一些 ANOVA 模拟,发现事后 LSD p 值(未针对多重性进行调整)与对比 p 值相同。未经调整的事后确实必须与对比度相同。因此,只有在事后无法处理给定假设时才应使用对比。例如,如果您尝试仅比较数据集中的某些组,或者如果您的假设需要组组合,例如对照组与 3 个治疗组的平均值,则事后将不起作用。在所有其他情况下,事后分析使执行计算变得更加容易和不那么繁琐。
多重性校正问题如何应用于简单的主效应?这适用于您在每个组中有多个级别(例如重复测量)并且想要准确找出哪些组在给定级别上不同的情况。
- 多重性校正的讨论是否适用于混合模型,就像它适用于方差分析一样,或者这里的方法不同?
似乎可以接受的是,不需要显着的 ANOVA 来运行针对多重性调整的事后(Hsu,p.177;Motulsky)。因此,如果特定假设不需要方差分析,是否有更好/更有效的方法来运行“事后”,例如根本不必运行方差分析?
回答(部分?):在我看来,由于 t 检验是 ANOVA 的一种特殊情况,我们应该能够通过运行几个 t 检验来避免运行和 ANOVA。但这会很麻烦,因为在 t 检验完成后,它们的 p 值将不得不手动调整。做一个 Bonferroni 调整并不难,但像 Dunnett 或 Holm-Sidak 这样的东西就不是很清楚了。如果有重复测量,我也不清楚如何使用 t 检验。这个答案需要扩展或更正。
最后,是否可以安全地假设,如果主效应不显着,那么未经调整的事后/对比就不可能了?
我希望有一个健康的讨论,如果不是决定性的答案。当然,后者更可取。我的观点是,如果统计学家之间没有就给定主题达成明确共识,那么最终用户(例如研究人员)基本上应该可以自由使用任何适合他们需要的东西。
2015 年 4月 27 日更新:没有人做出任何贡献的事实表明,即使在更高级的统计用户中,对多重性调整的理解也很差。我用有趣的参考/答案更新了一些观点。不过需要更多的输入。
从 2016 年 8 月 3 日起对@Bonferroni 的回答作出回应。
感谢您的参考。自从我的 OP 以来,我已经阅读了更多关于这些问题的内容,并且还与一些统计学家进行了交谈。总的来说,我认为你对一个没有明确共识的问题采取了过于严格的方法。我不知道 Frane 的资历,他也没有那么多的出版物/引用,但对于反对意见,请参阅 Nakagawa,他在统计数据方面有着良好的记录,包括混合模型等先进技术。忘记关于计划与计划外或正交与非正交比较的争论,Nakagawa谈到完全摆脱多重调整并为此提出有趣的观点。持有这种观点的不止他一个人。
我不知道您是否有具体的参考资料来说明为什么选择最强大的调整方法是有问题的。根据我的参考,对此也没有共识。我认为使用最强大的调整没有问题,例如 Dunnett 或顺序 Holm-Sidak(如果不需要 CI)。所以如果有人先验地知道这个理论,他将应用最强大的测试。但是那些不知道的人会简单地运行几个测试并通过反复试验偶然发现最强大的测试。说每次调整都是一个单独的测试,本身就需要调整是有问题的。例如,如果您运行回归然后发现残差太偏斜并且必须在此之后运行不同的测试怎么办?按照这种逻辑,这也需要进行多重调整,但我从未见过任何规则。
请记住,在绝大多数科学研究中,家庭方面的错误是没有调整的。事实上,像 SPSS 和 SAS 这样的高级统计软件包甚至没有办法调整它(我实际上和 IBM 谈过这个)。如果给定的实验假设有 20 次重复测量,那么在大多数实际实验设计中,考虑到家庭错误将消除测试的力量。
我希望对这个线程有更多的贡献。最终,随着我一直在学习更多内容,我将对 OP 进行重大编辑。我读的统计论文越多,就越清楚统计中有多少艺术。