查找聚类样本的共享属性

数据挖掘 聚类 k-均值
2022-02-09 00:11:21

我有一个包含约 15 个特征的数据集。使用肘部方法,我发现最佳聚类数可能是四个。因此,我将 K-means 算法应用于四个集群。现在,我想了解为什么这些集群会以现在的方式形成。换句话说,我想确定特定集群的点的共享属性。

我的想法如下:

假设 C1 是第一个簇的质心坐标,P1 和 P2 是该簇的两个点。

C1=(524)

P1=(826)P2=(920)

如果我们计算 P1 和 P2 不同坐标的平均距离,我们会得到:

DistAverage=(((85)+(95))/2((22)+(22))/2((64)+(40))/2)=(3.503)

这是否意味着第二个特征是该集群点的“共享属性”(因为平均距离为 0)?

我希望这个问题足够清楚。

3个回答

显然,您可以检查每个属性的方差

但除非数据规模严重,否则可能需要组合属性来解释集群的差异。

有许多评估指标可以量化集群内属性与集群间属性。

您正在描述类似于Davies-Bouldin 指数的东西,它是衡量集群内分散程度的指标。

就像上面的答案所述,有很多指标可以用来确定为什么选择某些集群而不是其他集群。要添加到该答案,您可以在此链接中查看其他答案,这可以帮助回答您的问题。

  1. 惯性
  2. 邓恩指数

总结这两个,惯性是关于质心和集群中点之间的距离,惯性越低越好。邓恩指数衡量一个集群内的距离之间的比率,以及得分越高的集群之间的比率,确定一个更好的集群。

至于特定的“共享属性”,我会说这可能特定于手头的项目。在我之前分享的链接中,有一个有用的图表显示了同一散点图的两种可能的集群类型。

在此处输入图像描述

在案例 1 中,集群共享收入水平,而在案例 2 中,集群共享债务水平。文章继续解释,案例 2 会更好,因为您可以将集群描述为四个不同的类别:高收入/债务、高收入/低债务、低收入/高债务、低收入/低债务。这比我们可以从案例 1 中得出的两个类别(低收入、高收入)要好。这将为我们提供更好的债务集群“共享财产”。