聚类的准确度指标

人工智能 无监督学习 聚类 准确性
2021-11-01 19:02:36

我有一个模型,它为所有数据点输出潜在的N 维嵌入,以将来自同一类的数据点聚集在一起的方式进行训练,同时与属于其他不同类的其他集群分开。

使用 UMAP 将 N 维嵌入投影到 2D。在每个时期,我希望在这些 2D 投影上测试模型的聚类能力,以用作验证准确性。我有每个班级的标签。

我应该如何进行?

UMAP 投影

2个回答

您可以为您的目标计算“轮廓系数”。它的值意味着

1:表示集群彼此之间相距甚远且区分清晰。

0:表示集群无关紧要,或者我们可以说集群之间的距离不显着。

-1:表示集群以错误的方式分配。

通过“计算一个外部标准来评估聚类与黄金标准类的匹配程度”,也可以实现其他度量,例如纯度和互信息。

我将为此建议一个更流行的指标。Davies Bouldin 分数 ( https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_score )。

您还可以查看 scikit 文档 ( https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics ) 中的聚类指标。