我有一个感觉很简单的问题,但无法轻松找到答案。
情况
假设我有一个包含数万个基因和少量(<100)样本的基因微阵列数据集。我对两个样本组之间的简单平均差异感兴趣。我对每个基因进行 t 检验并获得 p 值。但是在经过 Bonferroni 校正以进行多次测试后,它们都没有幸存下来。
然而,我也看到有 8% 的重要基因,我认为这是不可能的。所以相反,我想声称有比预期更多的重要基因。
问题
感觉我不能简单地说我期望 5% 和 8% 高于那个,所以我有更多。因为基因很可能不是独立的。也许获得 8% 甚至更多的可能性并非不可能。
因此,我尝试做的是排列样本标签,看看有多少排列比例给了我 8% 或更多具有显着差异的基因。如果我看到只有 1% 的排列给了我超过 8% 的显着差异——那么我说有比预期更多的显着基因,我的排列 p 值为 0.01。
问题
- 这是一种有效的方法吗?
- 有更好的选择吗?
- 也许有人知道与这个问题相关的任何文献?