错误发现率和 q 值:当 p 值的等级改变时如何解释 q 值?

机器算法验证 多重比较 多层次分析
2022-03-26 03:27:52

我正试图围绕错误发现率及其相关的 q 值进行思考;我是这种技术的新手,但它似乎很有希望满足我的需求。

我不断遇到但似乎无法解决的一个症结如下:

据我所知,q-values 的排序可能与 p-values 的排序不同,这对我来说似乎是无稽之谈。进一步解释:

q 值是通过对 p 值进行排序并按等级调整这些 p 值来计算的。例如,在最初的 Benjamini & Hochberg 论文(控制错误发现率:一种实用且强大的多重测试方法)中,引入了一个值 q*,它是

 (# tests) * p-sub-i / (rank order of p-sub-i)

Story 后来引入了一个校正因子“pi0”来校正并非所有采样测试都是空测试的事实。

使用这些计算(任一版本),然后可以“排序” q 值,并了解哪些测试相对于其他测试是显着的,同时仍然考虑多重测试比较的关键。

但是,如果 p 值彼此非常接近(经常发生),则这种排序顺序可以切换。例如,如果 p 值为 0.00505 (a) 和 0.00506 (b),则 q 值可以分别为 0.012 (a) 和 0.011 (b)。这样做的原因是,由于 p 值的指数或排名增加而导致的 q 值变化可能比 p 值本身的变化更显着

上面显示的示例非常小,但仍然指向我不理解的理论含义:一些 p 值低于其他测试的测试可能最终得到比其他测试更高的 q 值,这意味着零假设测试是“任意”受到邻居的影响。

我在这里想念什么?

2个回答

Benjami-Hochberg 论文中描述的方法没有多个 q 值。您所说的“然后可以对 q 值进行‘排序’是什么意思?”一开始就固定了一个 q 值(比如 0.05)。这意味着我们希望将 FDR 控制在 q 水平。也就是说,错误拒绝与拒绝假设的预期比率将小于 q。

固定的情况下,我们将设置为排序后的 p 值。然后该方法拒绝 for其中qP(i)H(i)i=1,2,,kkiP(i)imq

改变顺序的原因是 q 值衡量的是与 p 值根本不同的东西。q 值是给定统计显着性水平的误检率 (FDR)。假设您观察到的第 5 低 p 值为 0.02,并且通过使用某种统计方法,您估计使用此显着性阈值平均会得到 2 次假阳性检测。这将给出的 FDR 。然后假设第 8 个最低的 p 值为 0.045,估计的误报数为 3。那么q 值的顺序与 p 值不匹配。2/5=0.4q=3/8=0.375