多重比较问题的原因是什么?

机器算法验证 假设检验 多重比较
2022-03-09 23:56:30

我理解MCP背后的直觉,但我无法准确指出原因,应该避免什么,或者至少要考虑什么。

在其最直截了当的定义中,我同意如果我获取任何数据并对其应用蛮力方法尝试所有可能的无效假设,我最终会找到一个可以用任意 alfa(例如 5%)拒绝的假设并声明一个发现。

但是在 MCP 的许多定义中,我读到了“测试越多,发现的可能性越多”之类的内容,尽管我同意,但我不一定将其视为问题(或至少是问题的根源)。例如,如果许多研究人员使用相同的可用数据分析相同的现象,每个人都在测试自己的假设,那么一个人更有可能达成一项发现(而不是只有一名研究人员),这是否意味着他们应该应用对其目标 alfa 进行某种类型的校正(例如Bonferroni 校正)?我假设答案是否定的,但是不清楚为什么一个研究人员应该测试许多假设(再次,同意测试系统可能被滥用并且应该对此进行更正)。

这种增加发现发现(拒绝零假设)的机会何时会成为问题?在考虑原因时,会想到一些因素,但我不确定其中哪一个(或此处未列出的其他)与此问题的原因更相关:

  1. 事后分析:我知道假设应该(最好)先验地制定,如果不是,我只是在查看数据,试图猜测我可以在所需的 alfa 下拟合哪个假设。

  2. 重用数据:如果我为我测试的每个假设使用不同的数据集,问题会消失吗?发现发现的机会仍然会增加我测试的更多假设(即使在不同的数据集上)。

  3. 独立研究人员:重用前面的例子,MCP 是否与同一个研究团队/努力有关?或者它适用于研究同一问题(甚至是相同或相似数据)的多个独立研究人员?

  4. 独立假设:与上一期相关,当假设独立时,问题是否出现(或更强烈地表现出来)?(因为我覆盖了更多的搜索空间)还是主要问题是尝试具有小变化的类似假设(例如,微调参数)?

在我的解释中,我可以将上述几点总结为(1)和(2)是减少搜索空间的形式(借用优化理论中的术语),我可以更容易地找到发现;(3) 和 (4) 使用更多正交搜索方法,每次应用它们时(即,每次测试假设时)覆盖更多的搜索空间。但这些只是我可以想出的一些可能的原因,为了帮助开始回答,我敢肯定还有很多我想念的。

这个问题在某种程度上是上一个问题的后续问题,该问题询问为什么多重比较是一个问题,提出了一个类似于FWERFDR之间区别的问题(如果我正确理解了这个问题)。在这个问题中,我不认为这是一个问题(尽管我更倾向于使用 FDR),两种比率都意味着在分析多个假设时存在问题(但我看不出与以下情况的区别:我分析了不同的不相关问题,为每个问题找到了一个具有 5% 显着性的发现,这意味着当我“解决”了 100 个拒绝零假设的问题时,其中 5 个(预期值)可能是错误的)。这个问题的最佳答案暗示没有明确的答案,也许这个问题也没有明确的答案,但是(至少对我而言)尽可能多地阐明 MCP 错误的原因仍然非常有帮助来自(哪里。

(对同一问题的另一个答案提出了一篇论文,该论文解释了贝叶斯多级模型视角相对于经典视角的好处。这是另一个值得研究的有趣方法,但这个问题的范围是经典框架。)

关于这个问题已经有几个问题,许多值得一读(例如,1 , 2 , 3 , 4)解决了(从不同的角度)上面提出的问题,但我仍然觉得一个更统一的答案(如果可能的话)缺乏,因此这个问题,我希望不会降低(已经有问题的)SNR

2个回答

您似乎假设研究人员可以判断何时发现。事实并非如此。即使你“发现了一个发现”,你也永远不能确定你已经这样做了(除非你是某种无所不知的存在),因为,尽管听起来很羞愧,但通常是在科学发现中区分虚惊一场在分析中具有某种程度的人类“信心”。

您的直觉大致正确,但考虑多重比较如何破坏假设检验本身的假设可能会有所帮助。当您进行经典假设检验时,您正在生成一个 p 值,它是针对零假设的证据的度量。p 值的构造方式使得较低的值构成了更多反对零假设的证据,并且它在零假设下均匀分布这就是让您认为零假设对于低 p 值(相对于显着性水平)不可信的原因。

假设你决定测试N>1假设没有对您的测试方法进行任何调整以解释多重比较。这些检验的每个 p 值都是一个随机变量,在该检验的原假设下是一致的。因此,如果这些测试的替代假设都不是真的(即,所有零假设都是真的),那么您有p1,...,pNU(0,1)(这些值通常不是独立的)。假设您选择显着性水平0<α<1并且您针对该级别测试所有这些假设。为此,您查看有序的 p 值并观察您有p(1)<...<p(k)<α<p(k+1)...<p(N)对于一些0kN. 这首先告诉你k测试(对应于有序 p 值),您应该拒绝每个测试的原假设。

这里有什么问题?好吧,问题在于,尽管每个测试的 p 值在各自的原假设下都是一致的,但有序的p 值并不一致。通过挑选最低的k低于显着性水平的 p 值,您不再查看在各自的原假设下一致的随机变量。事实上,对于大N,最低的 p 值可能具有高度集中在零附近的分布,因此这些很可能低于您的显着性水平,即使(根据假设)您的检验的所有原假设都是正确的。

无论 p 值是否独立,都会发生这种现象,因此无论您使用相同数据还是不同数据来检验这些假设,都会发生这种现象。多重比较的问题是N测试将具有不均匀的边际零分布。诸如 Bonferroni 校正之类的调整试图通过调整 p 值或显着性水平来解决此问题,以创建解释此现象的比较。