Tukey Median Polish 算法用于微阵列的RMA标准化。您可能知道,微阵列数据非常嘈杂,因此他们需要一种更可靠的方法来估计探针强度,同时考虑到所有探针和微阵列的观察结果。这是用于标准化跨阵列的探针强度的典型模型。
Yij=μi+αj+ϵij
i=1,…,Ij=1,…,J
其中是阵列探针的对转换 PM 强度。是背景噪声,可以假设它们对应于正常线性回归中的噪声。然而,对的分布假设可能是限制性的,因此我们使用 Tukey Median Polish 来获得和的估计值。这是一种跨阵列归一化的稳健方法,因为我们希望将信号(由探针引起的强度)与阵列效应分离。进行归一化来获得信号Yijlogithjthϵijϵμi^αj^ααj^对于所有数组。因此,我们只剩下探测效应加上一些随机噪声。
我之前引用的链接使用 Tukey 中值抛光通过探针效应排名来估计差异表达基因或“有趣”基因。然而,这篇论文已经很老了,可能当时人们还在试图弄清楚如何分析微阵列数据。Efron 的非参数经验贝叶斯方法论文发表于 2001 年,但可能没有被广泛使用。
然而,现在我们对微阵列(统计)了解很多,并且对它们的统计分析非常确定。
微阵列数据非常嘈杂,而 RMA(使用 Median Polish)是最流行的归一化方法之一,可能是因为它的简单性。其他流行和复杂的方法是:GCRMA、VSN。归一化很重要,因为感兴趣的是探针效应而不是阵列效应。
如您所料,分析可能受益于一些利用跨基因信息借用的方法。这些可能包括贝叶斯或经验贝叶斯方法。可能是您正在阅读的论文很旧,而这些技术直到那时才出现。
关于您的第二点,是的,他们可能正在修改实验数据。但是,我认为,这种修改是为了更好的原因,因此是合理的。原因是
a) 微阵列数据非常嘈杂。当兴趣是探测效应时,通过 RMA、GCRMA、VSN 等对数据进行归一化是必要的,并且可以利用数据中的任何特殊结构是好的。但我会避免做第二部分。这主要是因为如果我们事先不知道结构,最好不要强加很多假设。
b) 大多数微阵列实验本质上是探索性的,也就是说,研究人员试图缩小到几组“有趣”的基因,以进行进一步的分析或实验。如果这些基因有很强的信号,那么像标准化这样的修改不应该(基本上)影响最终结果。
因此,修改可能是合理的。但我必须指出,过度标准化可能会导致错误的结果。