我对聚类算法进行了一些研究,因为我的目标是将噪声数据聚类并将异常值或小聚类识别为异常。我认为我的数据很嘈杂,因为我的主要特征可能有很大不同的值。因此,我的重点一直是基于密度的算法,并取得了相当大的成功。
但是,由于无法正确定义聚类中心的概念,因此我无法掌握此类算法中聚类比较的概念。
我的数据集由网络流组成,我根据标识符将数据集拆分为子集。在对每个子集应用聚类后,我希望能够比较在每个子集上创建的聚类,以便在某些上下文中比较子集本身。
希望数据科学家大师对如何在此类算法中处理集群比较或集群中心的概念提供一些帮助。
谢谢大家!