在实践和哲学层面,在进行多重比较时应该如何选择范围?
当一项研究执行 10 次测试以检查 10 个解释变量可预测“某事”(在同一数据集上)的假设时,显然应该更正该测试。
如果有十项研究,每项研究测试一个不同的解释变量——在进行元分析时,是否应该纠正它们的 P 值?(是否会知道这些研究是在同一数据集上进行的,还是在不同数据集上进行的?)
但是,如果我们再增加 100 名研究人员,他们都不太擅长他们的工作(都在测试“垃圾”变量)——这会自动破坏我们在更正后找到任何东西的机会。但这是否反映了现实生活科学中已经发生的事情?
现在,让我们假设相同的研究人员正在做一百项研究,在不同的领域,每个人都问一个问题。他应该从这 100 项研究中纠正他的 P 值吗?如果问题不同但在同一个研究/数据集上怎么办?
您会提供哪些标准来选择执行多重比较校正的范围?
ps:我知道我的问题与这个有关,但是由于网站上有新人,并且由于存在一些差异,因此我允许自己提出上述问题。
pps:我认为这个问题没有“正确答案”,因此我选择将其作为社区 wiki,但由于某种原因,我今天无法在屏幕上找到如何操作...