如果使用 Z 分数而不是实际的表达测量值,基因表达的热图是否会提供更多信息?

机器算法验证 数据可视化 遗传学
2022-03-14 16:48:07

我有一张基因表达测量的热图(log 2转换的微阵列信号,微阵列间数据标准化后等),我用它来说明 72 个基因(热图的“行”)的表达我已经确定在我的研究的 60 个样本的不同子组(热图的“列”,按子组排序)中存在差异表达。基因测量的范围在 1-12 范围内(例如,基因 X 为 4-8,基因 Y 为 2-10,等等)。它是一个双色热图,其中最亮的绿色、黑色和最亮的红色分别用于值 1、4 和 12。

一位评论家评论说,如果使用基因表达测量的 Z 分数代替,热图将提供更多信息。我不明白这一点,因为对我来说,热图似乎信息量较少;Z 评分将降低数据的维度,因为对于给定的样本,不能再将一个基因与另一个基因进行比较。

任何人都可以对此发表评论吗?谢谢。

显示当前和审阅者提出的热图的图像可以在这里看到:http: //i.imgur.com/a2hmT.png

2个回答

审稿人可能指的是您人物的底部图例。它从 1 到 12,中间有 4,这很不舒服。这使得你的绝对对数表达值难以解释,因为当一个基因从亮绿色变为黑色时,它的表达水平乘以 16,但当它从黑色变为亮红色时,它乘以 256。简而言之,我不要认为您的数字可能“更具信息性”,但信息可能更直观。

正如@fosgen 所解释的,Z 分数是居中并归一化的,因此用户可以将颜色解释为x平均值的标准偏差,并对该值的相对变化有直观的了解。

像@fosgen 一样,我认为您应该按基因进行标准化(在这种情况下,按细胞类型进行标准化对我来说没有意义)。黑色将是不同细胞类型(设置为 0)的平均表达,颜色分布在两侧是对称的。

显示(相对)基因表达变异是该领域的标准,但您可能有特定的理由显示(绝对)log2-微阵列测量,在这种情况下,您可以将它们暴露给审阅者。但我仍然会拉直颜色渐变以简化解释。

答案取决于图中必须显示什么样的比较。如果我们想显示基因之间的差异,最好按样本制作 Z-score(强制每个样本的均值为零,标准差 = 1)。如果我们想显示样本之间的差异,最好按基因制作 Z-score(强制每个基因的均值为零,标准差 = 1)。原始热图包含这两种信息。因此,“信息量较少”的短语不适合这里。但是冗余信息使有用的信息难以看到。Z 评分不会降低维度,但会丢弃有关行或行中的均值和标准差的信息列(基因或样本)。想想你在论文中讨论了什么信息和什么比较,如果某些信息是多余的,则进行适当的 Z 评分,否则如果一切有用 - 留下原始热图并向你的审阅者解释这一点。