我们正在 30,000 个样本上尝试 DBSCAN 聚类模型,每个样本有 15 个特征。我们将epsilon 参数调整得足够小,以确保在进行聚类时聚类圆的半径很小。我们预计会有高密度的小集群。在聚类和参数调整之后,我们使用 t-SNE 在 2 维空间中绘制聚类结果,我们发现我们有像集群 2,3,4,5 这样的小集群,如预期的那样具有高密度,而像集群 0,1 这样的大集群出乎意料地松散地散落。显然,集群 0、1 对我们来说看起来很奇怪。
有什么我们不知道的,聚类算法有问题吗?
或者它是关于 t-SNE 的东西,当它在低维绘制聚类结果时,看起来集群 0、1 非常分散,实际上它们在高维空间中更接近和紧张?
- 簇 0:橙色
- 集群 1:蓝色
- 集群 2:红色
- 第 3 组:绿色
- 第四组:淡黄色
- 第 5 组:紫色
30,000 个样本,6 个集群案例:
30,000 个样本,8 个集群案例:

