非正式/视觉“多重比较”是否需要多重比较校正?

机器算法验证 假设检验 多重比较
2022-03-03 06:14:52

关于何时需要进行多重比较校正,我有一个哲学问题。

我正在测量一个连续的时变信号(在离散的时间点)。不时发生单独的事件,我想确定这些事件是否对测量信号有重大影响。

因此,我可以获取事件之后的平均信号,通常我可以在某个峰值处看到一些影响。如果我选择那个峰值的时间并说一个 t 检验来确定它是否显着与事件没有发生我是否需要进行多重比较校正?

虽然我只进行过一次 t 检验(计算出 1 个值),但在我最初的目视检查中,我从我绘制的(比如说)15 个不同的延迟后时间点中选择了具有最大潜在影响的那个。那么我是否需要对我从未执行过的那 15 次测试进行多重比较校正?

如果我不使用目视检查,而只是在每个事件滞后时进行测试并选择最高的一个,我肯定需要纠正。如果“最佳延迟”选择是由测试本身以外的其他标准(例如视觉选择、最高均值等)做出的,我是否需要这样做有点困惑。

4个回答

从技术上讲,当您对在哪里进行测试进行视觉预选时,您应该已经纠正了这一点:您的眼睛和大脑已经绕过了数据中的一些不确定性,如果您只是在那个时候进行测试,您就不会考虑这些不确定性.

想象一下,您的“峰值”实际上是一个高原,而您手动选择了“峰值”差异,然后对其进行测试,结果几乎没有显着性。如果您要稍微向左或向右运行测试,结果可能会发生变化。这样,您必须考虑预选的过程:您不能完全确定您所说的!您正在使用数据进行选择,因此您有效地使用了两次相同的信息。

当然,在实践中,很难解释诸如挑选过程之类的事情,但这并不意味着您不应该(或至少对结果置信区间/测试结果持保留态度)。

结论:如果您进行多重比较,无论您如何选择这些比较,都应该始终纠正多重比较。如果在查看数据之前未选择它们,则应另外进行更正。

注意:对手动预选进行校正的替代方法(例如,当它实际上不可能时)可能是陈述您的结果,以便它们明显包含对手动选择的参考。但这不是“可重复的研究”,我猜。

很久以前,在我的第一堂统计学课上,我在一篇文章中读到了这一点(我认为这是科恩关于回归的书的旧版),上面写着“这是一个关于哪些合理的人可以有所不同的问题”。

我不清楚是否有人需要纠正多重比较,如果他们这样做,他们应该在什么时期或一组比较中纠正。每篇文章?每个回归或方差分析?他们在某个主题上发表的所有内容?其他人发布的内容呢?

正如您在第一行中所写的那样,它是哲学的。

如果您尝试对现实做出一次性决定并希望控制错误拒绝原假设的比率,那么您将使用原假设显着性检验 (NHST) 并希望使用校正进行多重比较。然而,正如彼得弗洛姆在他的回答中指出的那样,目前还不清楚如何定义应用校正的比较集。最简单的选择是应用于给定数据集的一组比较,这是最常见的方法。

然而,科学可以说是最好的累积系统,其中一次性决定不是必需的,实际上只会降低证据积累的效率(将获得的证据减少到一点点信息)。因此,如果一个人遵循适当的科学方法进行统计分析,避免使用 NHST 来使用似然比等工具(也可能是贝叶斯方法),那么多重比较的“问题”就会消失。

要记住的一件非常重要的事情是,多重测试校正假设独立测试。如果您分析的数据不是独立的,那么事情会比简单地纠正所执行的测试数量要复杂一些,您必须考虑正在分析的数据之间的相关性,否则您的纠正可能过于保守,您会具有较高的 II 类错误率。我发现如果使用得当,交叉验证、置换测试或自举可以成为处理多重比较的有效方法。其他人已经提到使用 FDR,但是如果您的数据中有很多非独立性,这可能会给出不正确的结果,因为它假设 p 值在 null 下的所有测试中是一致的。