R:统计测试以识别具有过高变异性的样本

机器算法验证 r 标准差
2022-04-04 17:29:39

我想开发一个测试来确定我的数据集中哪些变量的变化高于“平均变异性”。

从那以后我一直在努力解决这个问题,我也徒劳地试图在其他论坛上寻求帮助。

我有来自生物实验的数据,看起来像这样:

v1 2 1.8 1.5 1.9 2.1 1.78 1.95 2.0 2.1  
v2 2 100 -5.2  
v3 1 -1.3 -2 2.3  
v4 1 1.5 1.6 1.9 2.1 2.0 2.4 -1.1 2.3 1.5 1.6 1.9 1.8 1.6

这些代表基因表达。现在,我希望每个变量(基因)的所有值都或多或少相似,因为这些值是同一基因的重复测量值。

像 v2 这样具有如此巨大差异的变量没有意义,因为重复测量应该给出一致的值。因此,它必须来自方法错误,并且必须丢弃变量(基因)。

我在 R 中寻找一种方法(可能是统计测试),它可以识别我的样本中的“平均变异性”并报告我哪些变量(基因)的变异性显着更大。这意味着对于这些基因,我的数据不足以估计表达,我必须丢弃它们。

我非常感谢我可以用于我的目的的任何测试建议/链接/建议/方法。

2个回答

我只是看着这个。

我的方法是:

  • 计算每组样本的平均值、标准差和计数
  • 计算给定 alpha、样本大小和拟合性质(二次)的临界 t 阈值。我使用的是 excel,所以我使用了“ T.inv ”。
  • 通过减去平均值,然后除以标准偏差,然后将绝对值与 t 阈值进行比较来转换数据。
  • 如果高于阈值,则将其归类为异常值

注意:alpha 是一个参数。如果您想让您的合身“更宽”,请使用较小的值。如果您希望将更多数据分类为可能的异常值,请使用更高的值。如果您能花时间理解“alpha”在此阈值的统计意义上的含义,那就太好了。

我注意到您有 3 个样本的行 - 这很危险:

拥有两个样本并计算标准差就像拥有一个样本并计算平均值。数学给了你一个数字,但它与数学一样稀疏,仍然给出一个值——它处于遗忘悬崖的边缘,信息量不是很大。获取更多样品。

有经验法则说 5、10、30、100 或 300 就足够了。如果你的分数低于 5,那么你最好有一个很好的理由来解释为什么数学还不错。

您要测量的“平均变异性”应转换为统计标准偏差。在 R 中计算 STD 非常容易,因此请在 google 上查找标准偏差的定义,看看它是否与您要查找的内容匹配。