这个只有两个特征的数据集是否适合使用 k-means 进行聚类?

人工智能 数据集 无监督学习 数据科学 聚类 k-均值
2021-11-14 06:51:44

我正在使用 K-means 聚类算法进行无监督学习。

以下数据集是否适合 k-means 聚类任务?为什么或者为什么不?数据集只有两个特征。

在此处输入图像描述

在此处输入图像描述

1个回答

聚类算法的一个问题是它们通常会为您找到解决方案,即它们会将您的数据集拆分为集群,但即使没有结构,它也会为您找到一个结构。您的数据看起来可能包含大约 5 到 7 个集群,但也可能只有 2 个或只有 1 个。

聚类后​​您需要做的是评估结果的质量。我建议看一下Kaufman & Rousseeuw的《 Finding Groups in Data 》。他们讨论了各种聚类算法,以及一个计算聚类凝聚力的过程。尽管它已经 30 年了,但它是一本关于该主题的优秀书籍。

您还有在聚类中为k选择值的问题:我通常从两个开始,然后从那里增加它;在每一步,我都会使用他们的方法计算结果的凝聚力,直到我得到最好的分数。这是为k找到良好值的客观方法,通常是合理的聚类结果。

当然,最终的测试是看结果是否对你有意义。没有集群算法可以为您做到这一点。