我正在对约 20k+ 基因的甲基化数据进行分析。
对于 n = 3,我正在对每个基因进行 t 检验,以查看它是否在治疗后被差异甲基化。甲基化值范围为 [0,1]。
因此,在我的数据中,我有 6 行,每个患者有一个前后行,# 列 = # 个基因(~20k)。
这是生成 p 值的代码:
for (i in 1:ncol(df))
{
alpha = c(df[c(1,3,5),i])
beta = c(df[c(2,4,6),i])
df.p[i] = t.test(alpha,beta,paired=TRUE)$p.value
}
hist(df.p)
这可以很好地生成 p 值,但是当我制作得到的 p 值的直方图时,它强烈地向左倾斜,这很奇怪,因为如果没有的话,你至少会期望均匀分布任何显着的甲基化差异。下面是分发的截图。
旁注:我也使用了这个limma
包BioConductor
并得到了相同的结果。
我是否进行了错误的 t 检验?我该如何解释这些结果?感谢任何建议,因为我是一名新手生物统计学家。