基于密度的算法中聚类中心的概念和聚类比较

数据挖掘 Python 离群值 聚类
2022-03-03 11:47:25

我对聚类算法进行了一些研究,因为我的目标是将噪声数据聚类并将异常值或小聚类识别为异常。我认为我的数据很嘈杂,因为我的主要特征可能有很大不同的值。因此,我的重点一直是基于密度的算法,并取得了相当大的成功。

但是,由于无法正确定义聚类中心的概念,因此我无法掌握此类算法中聚类比较的概念。

我的数据集由网络流组成,我根据标识符将数据集拆分为子集。在对每个子集应用聚类后,我希望能够比较在每个子集上创建的聚类,以便在某些上下文中比较子集本身。

希望数据科学家大师对如何在此类算法中处理集群比较或集群中心的概念提供一些帮助。

谢谢大家!

2个回答

您可以使用中心点,有时可以计算质心(并忽略它可能在集群之外),或者您可以进行成对比较并取其平均值而不是比较中心。

您可以使用高斯混合建模(或变体)。目标是拟合高斯核N(μ,σ)到您的每个子集群。您正在寻找的子集群对之间的基线距离度量可能是L2他们的手段规范d(μ1,μ2). 子集群通常具有不同的标准偏差。您可以将其纳入距离测量中,以改进对距离测量的解释。您可以使用它来识别异常值。通常,离群值的特征是与所有其他子集群的平均距离最高的联合标准,以及低方差。