HDBSCAN 集群:我仍然不清楚如何选择“min_cluster_size”

数据挖掘 机器学习 Python 聚类
2022-03-07 06:23:48

当您几乎不知道应该存在多少集群时,Hdbscan 是一种出色的技术,可以在您的数据中找到“最佳”集群数量。这使得该方法非常适合探索性分析:

http://hdbscan.readthedocs.io/en/latest/comparing_clustering_algorithms.html

这是我的问题:在上面的链接中使用 hdbscan 和 python 实现的所有结果都依赖于关键的 min_cluster_size

http://hdbscan.readthedocs.io/en/latest/parameter_selection.html

如果用户事先不知道有多少集群最适合数据,那么上面的正确方法是什么?难道没有一个指标可以用来决定最佳集群数量是多少?

1个回答

最优在什么意义上?

聚类的关键在于没有最优解。不同的解决方案会告诉您故事的不同部分。为了能够获得不同的视图,您将需要参数这是一种探索技术。

定义“最佳”解决方案的各种尝试在实际使用中都失败了,想想 k-means。