当您几乎不知道应该存在多少集群时,Hdbscan 是一种出色的技术,可以在您的数据中找到“最佳”集群数量。这使得该方法非常适合探索性分析:
http://hdbscan.readthedocs.io/en/latest/comparing_clustering_algorithms.html
这是我的问题:在上面的链接中使用 hdbscan 和 python 实现的所有结果都依赖于关键的 min_cluster_size
http://hdbscan.readthedocs.io/en/latest/parameter_selection.html
如果用户事先不知道有多少集群最适合数据,那么上面的正确方法是什么?难道没有一个指标可以用来决定最佳集群数量是多少?