使用中值抛光进行特征选择

机器算法验证 特征选择 中位数 遗传学
2022-03-27 16:34:18

在我最近阅读的一篇论文中,我在他们的数据分析部分遇到了以下内容:

然后将数据表拆分为组织和细胞系,将两个子表分别进行中位数抛光(行和列迭代调整为中位数为 0),然后重新加入单个表。然后,我们最终选择了在至少三个测试样本中,其表达与该样本集中的中位数相差至少 4 倍的基因子集

我不得不说我并没有真正遵循这里的推理。我想知道您是否可以帮助我回答以下两个问题:

  1. 为什么调整数据集中的中位数是可取的/有帮助的?为什么要对不同类型的样品分开做?

  2. 这怎么不修改实验数据?这是从大量数据中挑选大量基因/变量的已知方法,还是相当临时的?

谢谢,

3个回答

Tukey Median Polish 算法用于微阵列的RMA标准化。您可能知道,微阵列数据非常嘈杂,因此他们需要一种更可靠的方法来估计探针强度,同时考虑到所有探针和微阵列的观察结果。这是用于标准化跨阵列的探针强度的典型模型。

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

其中阵列探针的对转换 PM 强度。是背景噪声,可以假设它们对应于正常线性回归中的噪声。然而,对的分布假设可能是限制性的,因此我们使用 Tukey Median Polish 来获得的估计值。这是一种跨阵列归一化的稳健方法,因为我们希望将信号(由探针引起的强度)与阵列效应分离。进行归一化来获得信号Yijlogithjthϵijϵμi^αj^ααj^对于所有数组。因此,我们只剩下探测效应加上一些随机噪声。

我之前引用的链接使用 Tukey 中值抛光通过探针效应排名来估计差异表达基因或“有趣”基因。然而,这篇论文已经很老了,可能当时人们还在试图弄清楚如何分析微阵列数据。Efron 的非参数经验贝叶斯方法论文发表于 2001 年,但可能没有被广泛使用。

然而,现在我们对微阵列(统计)了解很多,并且对它们的统计分析非常确定。

微阵列数据非常嘈杂,而 RMA(使用 Median Polish)是最流行的归一化方法之一,可能是因为它的简单性。其他流行和复杂的方法是:GCRMA、VSN。归一化很重要,因为感兴趣的是探针效应而不是阵列效应。

如您所料,分析可能受益于一些利用跨基因信息借用的方法。这些可能包括贝叶斯或经验贝叶斯方法。可能是您正在阅读的论文很旧,而这些技术直到那时才出现。

关于您的第二点,是的,他们可能正在修改实验数据。但是,我认为,这种修改是为了更好的原因,因此是合理的。原因是

a) 微阵列数据非常嘈杂。当兴趣是探测效应时,通过 RMA、GCRMA、VSN 等对数据进行归一化是必要的,并且可以利用数据中的任何特殊结构是好的。但我会避免做第二部分。这主要是因为如果我们事先不知道结构,最好不要强加很多假设。

b) 大多数微阵列实验本质上是探索性的,也就是说,研究人员试图缩小到几组“有趣”的基因,以进行进一步的分析或实验。如果这些基因有很强的信号,那么像标准化这样的修改不应该(基本上)影响最终结果。

因此,修改可能是合理的。但我必须指出,过度标准化可能会导致错误的结果。

您可能会在本文的第 4 页和第 5 页找到一些线索

这是一种计算模型 残差的方法, 通过计算的值,如果被制成表格,每行和每列的中位数为 0。

yi,j=m+ai+bj+ei,j
maibjei,j

更传统的方法相当于计算的值,以便每行和每列残差的平均值(或总和)为 0。maibj

使用中位数的优点是对少量异常值具有鲁棒性;缺点是如果没有异常值,您将丢弃可能有用的信息。

看起来你正在阅读一篇有一些基因差异表达分析的论文。在完成了一些涉及微阵列芯片的研究之后,我可以分享我对使用中值抛光的一些小知识(希望是正确的)。

在微阵列预处理的总结步骤中使用中值抛光在某种程度上是一种标准方法,可以用完全匹配的仅探针芯片(至少对于 RMA)去除异常值数据。

微阵列数据的中值抛光是您的行和列具有芯片效应和探针效应的地方:

对于 x 个芯片上的每个探针组(由 n 个相同的探针组成):

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

其中 iv 是强度值

由于探针强度的可变性,几乎所有微阵列数据的分析都在汇总之前使用某种背景校正和归一化进行预处理。

以下是 bioC 邮件列表线程的一些链接,这些线程讨论了使用中值抛光与其他方法:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

来自组织和细胞系的数据通常分开分析,因为当培养细胞时,它们的表达谱与收集的组织样本相比发生了显着变化。如果没有更多的论文,很难说单独处理样本是否合适。

分析流水线中的归一化、背景校正和汇总步骤都是对实验数据的修改,但在未处理状态下,芯片效应、批处理效应、处理效应会掩盖任何分析信号。这些微阵列实验生成作为后续实验(qPCR 等)候选基因的列表,以确认结果。

就临时性而言,问 5 个人需要多少倍差异才能被认为是差异表达的基因,你会得出至少 3 个不同的答案。