在多重比较中检验显着超出显着 p 值

机器算法验证 统计学意义 多重比较 置换检验 微阵列 组合 p 值
2022-03-31 16:48:37

我有一个感觉很简单的问题,但无法轻松找到答案。

情况

假设我有一个包含数万个基因和少量(<100)样本的基因微阵列数据集。我对两个样本组之间的简单平均差异感兴趣。我对每个基因进行 t 检验并获得 p 值。但是在经过 Bonferroni 校正以进行多次测试后,它们都没有幸存下来。

然而,我也看到有 8% 的重要基因,我认为这是不可能的。所以相反,我想声称有比预期更多的重要基因。

问题

感觉我不能简单地说我期望 5% 和 8% 高于那个,所以我有更多。因为基因很可能不是独立的。也许获得 8% 甚至更多的可能性并非不可能。

因此,我尝试做的是排列样本标签,看看有多少排列比例给了我 8% 或更多具有显着差异的基因。如果我看到只有 1% 的排列给了我超过 8% 的显着差异——那么我说有比预期更多的显着基因,我的排列 p 值为 0.01。

问题

  1. 这是一种有效的方法吗?
  2. 有更好的选择吗?
  3. 也许有人知道与这个问题相关的任何文献?
2个回答

可以考虑值的方法。p

伯恩鲍姆在他的论文“结合独立的显着性检验”中 指出,这个问题没有得到很好的说明这可能解释了可用方法的数量及其不同的行为。零假设定义明确,即所有在单位区间上均具有均匀分布。备择假设有两类 H0pi

  • HA: 全部pi具有相同的(未知的)非均匀的、非增加的密度,
  • HB: 最后一个pi具有(未知)不均匀、不增加的密度。

    如果所有组合的测试都来自基本上复制的内容,那么HA是合适的,而如果它们属于不同类型的测试或不同的条件,那么HB是合适的。请注意,Birnbaum 特别考虑了组合测试可能非常不同的可能性,例如一些均值检验、一些方差等。

    在具有同名Fisher方法的方法中(对数总和,总和χ22) 和 Tippett 的方法 (最小p) 当备选方案出现时反应良好HB 而 Stouffer 的方法(总和zs) 和 Edgington 的方法(总和p) 可能是首选时HA是备选方案。

    Loughin 的广泛模拟“组合方法的系统比较p--values from Independent tests”在这里可用也可能很有趣。

    在您提到的具体应用中,这取决于您认为是只涉及一些基因还是所有基因。由于我对孟德尔的遗传学知识或多或少停止了,我把它留给你。

  • 大约 10 年前,Bradley Efron 写了很多关于这个主题的论文。我认为在其中一个中,他也使用了置换方法,但主要思想是根据数据参数估计零分布。您可以在此处找到相应的 R 包说明