对混合数据进行聚类:找到最佳聚类数

数据挖掘 机器学习 聚类
2022-02-24 16:02:13

你对这个图有什么看法,可以找到混合数据的 kmean 或 kproto 的簇数。肘部在哪里识别?我会说5?我有 11 个功能。

在此处输入图像描述

2个回答

8 和 11 处的颠簸可能只是由于随机初始化,如果您使用不同的随机种子重新运行,那么它们将处于不同的 k。

肘部论证可能会建议 3,但这几乎是清楚的。我认为没有明确的界限,但值只会像统一数据一样下降。

所以很可能,a)您的距离函数不够好,2)算法不适用于此数据,和/或 c)此评估不适用于此数据。

您应该选择 9,从图中可以看出,WSS 值有一个下降。

如果您有 2 个功能或 9 个功能或 n 个功能,这并不重要。聚类基于这些特征中存在的数据(它可能取决于数据量)。