在一列数据集上进行无监督学习(显示的图表)

数据挖掘 机器学习 无监督学习
2022-03-07 18:56:35

我是机器学习的新手,所以在这里我要求进行完整性检查,如果我问的问题是合理的。

我有一个列数据集,所以我想使用熊猫从 csv 中调用其中一列。

从那一列数字中取一个数字,进行一些无监督学习以确定该值是否是该列中的异常值,是否属于该列。

下图显示了我将如何看待这个过程。对于这种情况下哪种无监督方法最适合我,我不确定我会怎么做。

在此处输入图像描述

1个回答

一些意见/问题/考虑:

  1. 维基百科:无监督学习是一种自组织的 Hebbian 学习,它有助于在没有预先存在的标签的情况下在数据集中找到以前未知的模式。
  2. 作为一个异常是一个标签
  3. 为什么不只是Z-score呢?https://en.wikipedia.org/wiki/Standard_score#Z-test计算分布:μσ,并检查值是否在μ+/- 1.96σ,95%可能来自列中数字的正态分布。
  4. Value 列可以不是数字吗?(例如颜色名称)
  5. 或者它可能是一个有漂移的时间序列?

编辑:

在底层,机器学习基本上是一组关于列和行子集的智能统计和决策。但是只有一列并且没有时间序列,没有什么明智的选择或决定。然后本质上,它是元素的特殊 Z 分数。你必须决定有多少σ你要。