我有一个包含约 15 个特征的数据集。使用肘部方法,我发现最佳聚类数可能是四个。因此,我将 K-means 算法应用于四个集群。现在,我想了解为什么这些集群会以现在的方式形成。换句话说,我想确定特定集群的点的共享属性。
我的想法如下:
假设 C1 是第一个簇的质心坐标,P1 和 P2 是该簇的两个点。
如果我们计算 P1 和 P2 不同坐标的平均距离,我们会得到:
这是否意味着第二个特征是该集群点的“共享属性”(因为平均距离为 0)?
我希望这个问题足够清楚。
我有一个包含约 15 个特征的数据集。使用肘部方法,我发现最佳聚类数可能是四个。因此,我将 K-means 算法应用于四个集群。现在,我想了解为什么这些集群会以现在的方式形成。换句话说,我想确定特定集群的点的共享属性。
我的想法如下:
假设 C1 是第一个簇的质心坐标,P1 和 P2 是该簇的两个点。
如果我们计算 P1 和 P2 不同坐标的平均距离,我们会得到:
这是否意味着第二个特征是该集群点的“共享属性”(因为平均距离为 0)?
我希望这个问题足够清楚。
显然,您可以检查每个属性的方差。
但除非数据规模严重,否则可能需要组合属性来解释集群的差异。
有许多评估指标可以量化集群内属性与集群间属性。
您正在描述类似于Davies-Bouldin 指数的东西,它是衡量集群内分散程度的指标。
就像上面的答案所述,有很多指标可以用来确定为什么选择某些集群而不是其他集群。要添加到该答案,您可以在此链接中查看其他答案,这可以帮助回答您的问题。
总结这两个,惯性是关于质心和集群中点之间的距离,惯性越低越好。邓恩指数衡量一个集群内的距离之间的比率,以及得分越高的集群之间的比率,确定一个更好的集群。
至于特定的“共享属性”,我会说这可能特定于手头的项目。在我之前分享的链接中,有一个有用的图表显示了同一散点图的两种可能的集群类型。
在案例 1 中,集群共享收入水平,而在案例 2 中,集群共享债务水平。文章继续解释,案例 2 会更好,因为您可以将集群描述为四个不同的类别:高收入/债务、高收入/低债务、低收入/高债务、低收入/低债务。这比我们可以从案例 1 中得出的两个类别(低收入、高收入)要好。这将为我们提供更好的债务集群“共享财产”。