应该使用哪种统计测试来测试基因列表的富集?

机器算法验证 生物统计学
2022-03-10 01:15:37

我进行了一项实验来测试细胞对某种 DNA 损伤剂的敏感性。我们发现了270个对药物特别敏感的基因,分析的基因总数为3668个。270个敏感基因中有38个被归类为“DNA修复基因”。如果基因组中包含的“DNA修复基因”数量为112个,基因组中的基因总数为3668个,那么敏感基因是否富集在DNA修复基因中?应该使用哪种统计检验?如果您还可以告诉我一些在线计算 p 值的工具,我将不胜感激。

1个回答

测试基因列表富集的标准做法是进行超几何测试,或者等效地,进行单边Fisher 精确检验您有以下列联表:2×2

DNA RepairOtherSensitive38232270Not Sensitive74332433981123556

R您可以按如下方式进行测试:

fisher.test(matrix(c(38,74,232,3324),nrow=2,ncol=2),alternative="greater")

这给出了一个非常重要的结果:

Fisher's Exact Test for Count Data

data:  matrix(c(38, 74, 232, 3324), nrow = 2, ncol = 2) 
p-value < 2.2e-16
alternative hypothesis: true odds ratio is greater than 1 
95 percent confidence interval:
5.062107      Inf 
sample estimates:
odds ratio 
7.34918

请注意,当我们测试过度表示(而不是表示不足)时,alternative参数设置为"greater".