给定标记为异常值的数据,我如何将数据分类为异常值?

数据挖掘 分类 无监督学习 阶级失衡 异常检测 标签
2022-02-20 01:28:56

我有一个混合了稀疏二元特征和定量特征的数据集。我只标记了明确的异常值。我应该如何尝试对未标记的数据进行分类?

我考虑使用 OSVM 或其他一类分类方法。

但是,在我的数据中,正常数据点聚集在均值附近。异常值通常是在任何方向偏离均值的点。我的问题是异常值在正常数据周围形成了一种高维甜甜圈。

考虑到偏差发生在各个方向,哪些算法最适合该任务?请记住,尽管正常点的数量会超过未标记数据中的异常值,但用于训练的正常标记数据点要少得多。

PS 我也在 Cross Validated 上发布了这个问题。这个问题应该在哪个网站上发布?

编辑: Mahalanobis 能够很好地工作。但是,我有标记的异常值。有什么办法可以使用它们来提高准确性吗?

1个回答

如果您确定您的数据实际上是正态分布的并且您的异常值实际上在您的“好”数据周围形成了一个高维环,那么您只需要一个距离度量,例如 Mahalanobis 距离适用于正常数据,并确定阈值根据您的描述,根据方差结构异常值考虑高维球或椭球之外的所有点与平均值的距离值。