数据挖掘 - HDBSCAN 集群：我仍然不清楚如何选择“min_cluster_size” - 吾爱随笔录 - 问答

HDBSCAN 集群：我仍然不清楚如何选择“min_cluster_size”

数据挖掘机器学习 Python 聚类

2022-03-07 06:23:48

当您几乎不知道应该存在多少集群时，Hdbscan 是一种出色的技术，可以在您的数据中找到“最佳”集群数量。这使得该方法非常适合探索性分析：

http://hdbscan.readthedocs.io/en/latest/comparing_clustering_algorithms.html

这是我的问题：在上面的链接中使用 hdbscan 和 python 实现的所有结果都依赖于关键的 min_cluster_size

http://hdbscan.readthedocs.io/en/latest/parameter_selection.html

如果用户事先不知道有多少集群最适合数据，那么上面的正确方法是什么？难道没有一个指标可以用来决定最佳集群数量是多少？

1个回答

最优在什么意义上？

聚类的关键在于没有最优解。不同的解决方案会告诉您故事的不同部分。为了能够获得不同的视图，您将需要参数。这是一种探索技术。

定义“最佳”解决方案的各种尝试在实际使用中都失败了，想想 k-means。

其它你可能感兴趣的问题

上一篇使用狄利克雷先验学习 - 概率图模型练习下一篇使用多组顺序数据学习