这个只有两个特征的数据集是否适合使用 k-means 进行聚类?
人工智能
数据集
无监督学习
数据科学
聚类
k-均值
2021-11-14 06:51:44
1个回答
聚类算法的一个问题是它们通常会为您找到解决方案,即它们会将您的数据集拆分为集群,但即使没有结构,它也会为您找到一个结构。您的数据看起来可能包含大约 5 到 7 个集群,但也可能只有 2 个或只有 1 个。
聚类后您需要做的是评估结果的质量。我建议看一下Kaufman & Rousseeuw的《 Finding Groups in Data 》。他们讨论了各种聚类算法,以及一个计算聚类凝聚力的过程。尽管它已经 30 年了,但它是一本关于该主题的优秀书籍。
您还有在聚类中为k选择值的问题:我通常从两个开始,然后从那里增加它;在每一步,我都会使用他们的方法计算结果的凝聚力,直到我得到最好的分数。这是为k找到良好值的客观方法,通常是合理的聚类结果。
当然,最终的测试是看结果是否对你有意义。没有集群算法可以为您做到这一点。

