不知道集群数量的凝聚聚类

数据挖掘 聚类 nlp 斯坦福-nlp
2022-02-21 16:57:09

我想执行凝聚聚类,但我事先不知道聚类的数量。但我希望每个集群中至少有 40 个数据点。如何将其应用于 sklearn.agglomerative 聚类?我应该使用树状图并以某种方式切割它吗?我不知道如何将树状图与此相关联并将其删除。任何帮助将不胜感激!

2个回答

在层次聚类中,最小聚类大小通常不能满足。相反,您必须期待许多只有一个点的集群。

ELKI 有一些相当有趣的技术来切割树状图。检查clustering.hierarchical.extraction(或左右)包。如果我没记错的话,有些允许您设置最小大小(但会有一个带有所有剩余部分的“噪音”集群)。

如果您不知道集群的数量,我鼓励您查看那些基于密度的算法:Mean Shift、DBSCAN、OPTICS。他们不假设簇数并且能够找到随机形状的簇。