机器算法验证 - R：统计测试以识别具有过高变异性的样本 - 吾爱随笔录

机器算法验证 r 标准差

2022-04-04 17:29:39

我想开发一个测试来确定我的数据集中哪些变量的变化高于“平均变异性”。

从那以后我一直在努力解决这个问题，我也徒劳地试图在其他论坛上寻求帮助。

我有来自生物实验的数据，看起来像这样：

v1 2 1.8 1.5 1.9 2.1 1.78 1.95 2.0 2.1  
v2 2 100 -5.2  
v3 1 -1.3 -2 2.3  
v4 1 1.5 1.6 1.9 2.1 2.0 2.4 -1.1 2.3 1.5 1.6 1.9 1.8 1.6

这些代表基因表达。现在，我希望每个变量（基因）的所有值都或多或少相似，因为这些值是同一基因的重复测量值。

像 v2 这样具有如此巨大差异的变量没有意义，因为重复测量应该给出一致的值。因此，它必须来自方法错误，并且必须丢弃变量（基因）。

我在 R 中寻找一种方法（可能是统计测试），它可以识别我的样本中的“平均变异性”并报告我哪些变量（基因）的变异性显着更大。这意味着对于这些基因，我的数据不足以估计表达，我必须丢弃它们。

我非常感谢我可以用于我的目的的任何测试建议/链接/建议/方法。

2个回答

我只是看着这个。

我的方法是：

注意：alpha 是一个参数。如果您想让您的合身“更宽”，请使用较小的值。如果您希望将更多数据分类为可能的异常值，请使用更高的值。如果您能花时间理解“alpha”在此阈值的统计意义上的含义，那就太好了。

我注意到您有 3 个样本的行 - 这很危险：

拥有两个样本并计算标准差就像拥有一个样本并计算平均值。数学给了你一个数字，但它与数学一样稀疏，仍然给出一个值——它处于遗忘悬崖的边缘，信息量不是很大。获取更多样品。

有经验法则说 5、10、30、100 或 300 就足够了。如果你的分数低于 5，那么你最好有一个很好的理由来解释为什么数学还不错。

您要测量的“平均变异性”应转换为统计标准偏差。在 R 中计算 STD 非常容易，因此请在 google 上查找标准偏差的定义，看看它是否与您要查找的内容匹配。

其它你可能感兴趣的问题