数据挖掘 - 查找聚类样本的共享属性 - 吾爱随笔录

查找聚类样本的共享属性

数据挖掘聚类 k-均值

2022-02-09 00:11:21

我有一个包含约 15 个特征的数据集。使用肘部方法，我发现最佳聚类数可能是四个。因此，我将 K-means 算法应用于四个集群。现在，我想了解为什么这些集群会以现在的方式形成。换句话说，我想确定特定集群的点的共享属性。

我的想法如下：

假设 C1 是第一个簇的质心坐标，P1 和 P2 是该簇的两个点。

C 1 = (\begin{matrix} 5 \\ 2 \\ 4 \end{matrix})

$C1 = \begin{pmatrix} 5\\ 2\\ 4\\ \end{pmatrix}$

P 1 = (\begin{matrix} 8 \\ 2 \\ 6 \end{matrix}) P 2 = (\begin{matrix} 9 \\ 2 \\ 0 \end{matrix})

$P1 = \begin{pmatrix} 8\\ 2\\ 6\\ \end{pmatrix} P2 = \begin{pmatrix} 9\\ 2\\ 0\\ \end{pmatrix}$

如果我们计算 P1 和 P2 不同坐标的平均距离，我们会得到：

D i s t A v e r a g e = (\begin{matrix} ((8 - 5) + (9 - 5)) / 2 \\ ((2 - 2) + (2 - 2)) / 2 \\ ((6 - 4) + (4 - 0)) / 2 \end{matrix}) = (\begin{matrix} 3.5 \\ 0 \\ 3 \end{matrix})

$DistAverage = \begin{pmatrix} ((8-5)+(9-5))/2\\ ((2-2)+(2-2))/2\\ ((6-4)+(4-0))/2\\ \end{pmatrix} = \begin{pmatrix} 3.5\\ 0\\ 3\\ \end{pmatrix}$

这是否意味着第二个特征是该集群点的“共享属性”（因为平均距离为 0）？

我希望这个问题足够清楚。

3个回答

显然，您可以检查每个属性的方差。

但除非数据规模严重，否则可能需要组合属性来解释集群的差异。

有许多评估指标可以量化集群内属性与集群间属性。

您正在描述类似于Davies-Bouldin 指数的东西，它是衡量集群内分散程度的指标。

就像上面的答案所述，有很多指标可以用来确定为什么选择某些集群而不是其他集群。要添加到该答案，您可以在此链接中查看其他答案，这可以帮助回答您的问题。

惯性
邓恩指数

总结这两个，惯性是关于质心和集群中点之间的距离，惯性越低越好。邓恩指数衡量一个集群内的距离之间的比率，以及得分越高的集群之间的比率，确定一个更好的集群。

至于特定的“共享属性”，我会说这可能特定于手头的项目。在我之前分享的链接中，有一个有用的图表显示了同一散点图的两种可能的集群类型。

在案例 1 中，集群共享收入水平，而在案例 2 中，集群共享债务水平。文章继续解释，案例 2 会更好，因为您可以将集群描述为四个不同的类别：高收入/债务、高收入/低债务、低收入/高债务、低收入/低债务。这比我们可以从案例 1 中得出的两个类别（低收入、高收入）要好。这将为我们提供更好的债务集群“共享财产”。

其它你可能感兴趣的问题

上一篇如何衡量模型构建过程中超参数选择的稳定性？下一篇深度学习和标签噪声。现实世界的最佳实践