我有一个混合了稀疏二元特征和定量特征的数据集。我只标记了明确的异常值。我应该如何尝试对未标记的数据进行分类?
我考虑使用 OSVM 或其他一类分类方法。
但是,在我的数据中,正常数据点聚集在均值附近。异常值通常是在任何方向偏离均值的点。我的问题是异常值在正常数据周围形成了一种高维甜甜圈。
考虑到偏差发生在各个方向,哪些算法最适合该任务?请记住,尽管正常点的数量会超过未标记数据中的异常值,但用于训练的正常标记数据点要少得多。
PS 我也在 Cross Validated 上发布了这个问题。这个问题应该在哪个网站上发布?
编辑: Mahalanobis 能够很好地工作。但是,我有标记的异常值。有什么办法可以使用它们来提高准确性吗?