动态聚类

数据挖掘 机器学习 异常检测
2022-02-12 05:50:12

我正在对不同的数据集执行异常检测,并考虑首先对数据集进行聚类并将每个聚类提交到不同的 AD 模型。我正在使用 HDBSCAN,在我的测试数据集中,我得到了 10 到 20 个集群,但是当我在生产环境中运行第一个测试时,我得到 3500。如何在所有集群中动态重复 AD 模型?

1个回答

考虑到您的目标,我建议您使用基于 LOF(局部异常因子)的聚类。这将为您提供各个集群的异常值,而不仅仅是全局异常值。所有数据点的 LOF 距离将用于识别异常。在这里您不必担心集群的数量。

https://en.wikipedia.org/wiki/Local_outlier_factor

另外我会质疑是否需要拥有多个聚类算法。它们旨在用于特定场景。人们应该看到底层分布并选择最好的 AD 算法。