比较来自许多线性模型的 p 值数量

机器算法验证 遗传学 微阵列
2022-04-08 03:32:03

我当前的数据集包含三个条件,我们测量了每个条件下 10,000 个基因的活性水平。复制 8 次。

使用 10,000 个线性模型,我们确定了每对条件(即三个对比中的每一个)具有显着不同活性水平的基因数量。这是此类微阵列数据的标准程序。

我们发现:

  • 2000 个基因在 A 和 B 之间具有显着不同的活性水平
  • 1500 个基因在 A 和 C 之间具有显着不同的活性水平
  • 100 个基因在 B 和 C 之间具有显着不同的活性水平

这表明条件 B 和 C 彼此之间比 C 更相似。PCA 表明相同的结果。我们有什么方法可以量化“条件 B 和 C 彼此之间比 C 更相似的程度(即在其上放置 p 值?)

感谢您的帮助,如果这个问题微不足道,我们深表歉意。

亲切的问候,

1个回答

在回答您的问题之前 - 基因的影响分布是否使用线性模型证明是合理的(例如:它们或多或少地分布正常?)

现在回答你的问题——我可能会提出用不同的方式来解决它。听起来您要求的是衡量不同条件之间的相关性(例如行为的相似性)。一种简单的方法是获取 8 次复制的平均值(或者可能是修剪后的平均值或中位数),然后您将有 10K 三元组可用于创建相关矩阵(在 3 个条件之间)。

第二步是回答一个相关性(比如 A 和 B 之间)是否显着高于其他两个相关性(比如 --A 和 C-- 以及 --B 和 C-- 之间)的问题。在这里,您可以使用以下不错的在线工具,也可以使用此处提供的信息在 R 中自己编写代码

干杯,塔尔