结合错误发现率 (FDR)?

机器算法验证 多重比较 生物统计学 错误发现率
2022-03-26 04:10:25

假设我们有一群患者。对于每位患者,我们测量 1000 个特征并观察他们是否患有 10 种疾病中的任何一种。我们希望确定哪些特征(如果有)在预测每种疾病方面具有重要意义。

由于存在多个假设(1000 个特征),我们需要纠正我们的p-价值观。例如,我们可能会关注错误发现率并应用Benjamini-Hochberg 过程

我的问题是:我们是否需要将其视为单个多假设问题(1000 个特征×10 种疾病 = 10,000 个假设),还是我们可以将其视为 10 个单独的问题(每个问题有 1000 个假设)?我当然更喜欢后者,因为p-值校正将抑制更少的项。

很明显,要计算全族错误率,我们需要结合所有假设。我希望 FDR 的行为可能有所不同,并允许我独立分析每种疾病。

更广泛地说,如果这种通用方法偏离基础,我将不胜感激任何指向不同统计工具的指针。

更新:

我在下面将 Michael Lew 的深思熟虑的回答视为正确的,但随后我偶然发现了一个(统计上)更强大的处理 FDR 的工具。这似乎与我的问题非常相关。任何对此问题感兴趣的人都可能会发现这些论文很有帮助:

1个回答

你不是在测试假设,而是在寻找有趣的发现。没有什么不妥。不要做那些无法区分初步科学研究和不良统计数据的人经常要求的事情。有关更多详细信息,请参阅我对ASA 关于 P 值的声明的评论。(它在补充材料中,需要大量点击才能到达,所以是我在网上找到的预印本的直接链接。)

对多重性 P 值的“校正”会消耗检测实际效果的能力。除非您别无选择,否则永远不要这样做,因为无法进行任何形式的后续行动以及没有其他数据或理论的任何佐证,都是没有选择的。不要将结果分为“显着”和“不显着”,而是显示所有观察到的效应大小。(我怀疑这个回应会被否决,但这并没有错。)

将此视为初步调查。不要调整 P 值,而是按照 P 值的小数排列特征的统计“趣味性”。然后跟进一项旨在调查统计和/或科学上有趣的特征的研究。在这种情况下,我会说,即使不可能进行后续研究,您也应该发布原始 P 值,以便其他调查人员可以使用您的数据作为他们发现的佐证。