Benjamini-Hochberg 依赖假设是否合理?

机器算法验证 卡方检验 多重比较 似然比 克鲁斯卡尔-沃利斯测试 错误发现率
2022-03-08 01:37:58

我有一个数据集,我在其中测试三个群体之间关于大约 50 个不同变量的显着差异。我一方面使用 Kruskal-Wallis 检验,另一方面通过嵌套 GLM 模型拟合的似然比检验(有和没有总体作为自变量)来做到这一点。

结果,我有一个 Kruskal-Wallis 的列表p- 一方面是值,我认为是卡方p- 来自 LRT 比较的值,另一方面。

我需要进行某种形式的多重测试校正,因为有超过 50 种不同的测试,而 Benjamini-Hochberg FDR 似乎是最明智的选择。

然而,这些变量可能不是独立的,它们中的几个“氏族”是相关的。那么问题是:我如何判断我的基础统计数据集是否p-值是否满足 Benjamini-Hochberg 程序仍然绑定到 FDR 所需的正依赖要求?

2001 年的 Benjamini-Hochberg-Yekutieli 论文指出 PRDS 条件适用于多元正态分布和学生化分布。用于模型比较的似然比检验卡方值怎么样?怎么样p-Kruskal-Wallis 测试的值?

我可以使用 Benjamini-Hochberg-Yekutieli 最坏情况下的 FDR 校正,它不假设任何依赖关系,但我认为在这种情况下它可能过于保守并且错过了一些相关信号。

2个回答

BH 过程的有效性取决于正相关的假设检验。如果您阅读他们 2001 年的论文,您会发现不需要多元正态,他们在论文中给出了弱条件:

Rosenbaum(1984)的条件(正)关联足以暗示 PRDS:X是有条件关联的,如果对于任何分区(X1, X2)X, 和任何函数h(X1),X2给定h(X1)是正相关的。

如果这些似乎是对您的数据做出的合理假设,那么只需将其声明为假设,并尝试提出符合和不符合的情况,以向自己澄清。

PRDS 是 BH 控制 FDR 的充分但非必要条件。我建议您使用它,并使用 Benjamini-Yekutieli 程序进行一般依赖。如果推理的差异很大,请尝试使用基于排列或重采样的技术来证明 BH 在您的特定设置中控制 FDR,从而保留您的依赖结构。