我想执行凝聚聚类,但我事先不知道聚类的数量。但我希望每个集群中至少有 40 个数据点。如何将其应用于 sklearn.agglomerative 聚类?我应该使用树状图并以某种方式切割它吗?我不知道如何将树状图与此相关联并将其删除。任何帮助将不胜感激!
不知道集群数量的凝聚聚类
数据挖掘
聚类
nlp
斯坦福-nlp
2022-02-21 16:57:09
2个回答
在层次聚类中,最小聚类大小通常不能满足。相反,您必须期待许多只有一个点的集群。
ELKI 有一些相当有趣的技术来切割树状图。检查clustering.hierarchical.extraction(或左右)包。如果我没记错的话,有些允许您设置最小大小(但会有一个带有所有剩余部分的“噪音”集群)。
如果您不知道集群的数量,我鼓励您查看那些基于密度的算法:Mean Shift、DBSCAN、OPTICS。他们不假设簇数并且能够找到随机形状的簇。
其它你可能感兴趣的问题