如果预先指定了检验的所有方面并且满足其假设,您可以安全地得出结论,零假设将在错误级别定义的频率下被错误地拒绝。如果您进行多个测试(一个“系列”测试),则这些测试中的每一个都是犯此错误的额外机会。
每个单独的测试可能仍具有其名义误差水平,但您在族中错误地拒绝至少一个零假设的概率会更高。如果您有理由首先设置错误级别,这是一个问题,因为发生至少一个错误的概率高于所述错误级别。这是对多重测试的关注的核心,它似乎适用于您描述的所有四种情况。
现在,如果测试是独立的并且所有零假设都是正确的,那么您知道在整个家庭中至少犯一个错误的概率是多少(顺便说一句,您还知道任何拒绝都必须是错误的)。如果它们不是独立的,或者某些零假设实际上不正确,则不仅实际的家庭错误水平高于名义水平,而且很难确切知道有多高(但是你可以对其进行限制;那是Bonferroni 调整背后的原因)。如果各种假设以某种方式相关,则可能会应用特定的解决方案(例如经典的“多重比较”技术、多变量测试、临床试验中的顺序程序),但即使它们不相关,问题仍然存在。
在收集数据时重复测试(也称为可选停止或“抽样到已成定局”)、尝试各种技术、分析各种子样本或因变量也会使您面临多个测试问题。这些情况并不总是一起讨论,但没有理由不应该这样做。测试相同假设或相关假设的不同技术(您的第 4 点)可能密切相关,并且可能不会像对完全不相关的样本进行多次测试那样增加家庭错误水平,但您仍在进行多次测试。
可能最微妙的问题是第 3 点。在这种情况下,您可以很好地运行单个统计测试。这怎么会导致多重测试问题?支持这一观点的一个论据是p值取决于假设复制上的检验统计量的分布。如果您要复制此实验,您将根据数据的“外观”每次执行不同的测试。该检验统计量的分布与您每次都盲目地检验相同的比较不同,因为它也受到先前对数据的非正式目视检查的影响。事实上,您在研究中隐含地考虑了许多可能的比较,即多重测试情况。
类似的推理也适用于第 4 点中描述的情况。它可能对应于也可能不对应于通常称为“多重测试问题”(is-this-really-所谓-X 问题的长期问题),但结果是相同:测试无法解释,因为它们可能远离标称错误水平。由于您建议根据早期测试的结果进行进一步的测试,但无论如何您都愿意运行多个测试,情况变得更加混乱。(请注意,这是基于您声称仅根据显着性做出决定的事实。根据残差或其他一些诊断来选择模型并且只进行一次显着性检验似乎是一种更好的方法。)
我对最后两点的推理尤其受到 Wagenmakers, E.-J. 的启发。(2007 年)。p值普遍问题的实用解决方案。心理公报和评论, 14 (5), 779-804。