在执行多重比较时选择范围?

机器算法验证 多重比较 荟萃分析
2022-04-10 18:55:20

在实践和哲学层面,在进行多重比较时应该如何选择范围?

当一项研究执行 10 次测试以检查 10 个解释变量可预测“某事”(在同一数据集上)的假设时,显然应该更正该测试。

如果有十项研究,每项研究测试一个不同的解释变量——在进行元分析时,是否应该纠正它们的 P 值?(是否会知道这些研究是在同一数据集上进行的,还是在不同数据集上进行的?)

但是,如果我们再增加 100 名研究人员,他们都不太擅长他们的工作(都在测试“垃圾”变量)——这会自动破坏我们在更正后找到任何东西的机会。但这是否反映了现实生活科学中已经发生的事情?

现在,让我们假设相同的研究人员正在做一百项研究,在不同的领域,每个人都问一个问题。他应该从这 100 项研究中纠正他的 P 值吗?如果问题不同但在同一个研究/数据集上怎么办?

您会提供哪些标准来选择执行多重比较校正的范围?

ps:我知道我的问题与这个有关,但是由于网站上有新人,并且由于存在一些差异,因此我允许自己提出上述问题。

pps:我认为这个问题没有“正确答案”,因此我选择将其作为社区 wiki,但由于某种原因,我今天无法在屏幕上找到如何操作...

1个回答

想想以下两个实验:

实验A;投掷一枚公平的硬币 10 次以评估概率(正面)。

实验 B:掷一个公平的骰子 5 次以评估 Prob(显示 1 的面)。

以 wiki 中的抛硬币为例:如果我们观察到 10 次抛硬币中超过 9 次正面朝上,我们可能希望将硬币声明为有偏见的。

因此,如果我将实验 A 重复 100 次,那么有 34% 的机会(请参阅 wiki 的计算)我们将一枚硬币识别为有偏差的硬币,因为它不会因此将 I 类错误概率从 0.05 增加到 0.34。因此,我们需要在这种情况下控制多重比较。

但是,请注意,就实验 B 而言,我们在实验 A 中的试验对我们的结果没有影响,因为这是一个完全不同的数据生成过程。以上表明我们必须分别控制两个实验的多重比较,而不是共同控制。

换句话说,只要比较涉及相同的数据生成过程,就应该对多重比较进行控制。

编辑

严格来说,上述硬币与骰子的例子并不是一个很好的例子,因为这类似于调查两个非常不同的问题的实验(例如,估计吸烟是否会导致癌症,以及估计跳红灯是否会导致事故)。在这些情况下,控制两个实验的多重比较是没有意义的。

进一步思考,就多重比较而言,我不清楚数据生成过程是否真的可以发挥特殊作用。即使数据生成过程不同(可能是因为不同的协变量),由于多重比较,您仍然会冒增加 I 类错误的风险。

因此,在我看来,重要的是多重比较是否涉及对相同的零假设进行判断。只要多重比较涉及相同的假设,我们就必须对多重比较进行校正,以将 I 类错误保持在所需的水平(例如,0.05)。