我有一个带有输入参数(簇数)的聚类算法(不是 k-means)。执行聚类后,我想对该聚类的质量进行一些定量测量。聚类算法有一个重要的性质。对于,如果我将个数据点提供给该算法而它们之间没有任何显着区别,结果我将得到一个包含数据点的集群和一个包含数据点的集群。显然这不是我想要的。所以我想计算这个质量度量来估计这个聚类的合理性。理想情况下,我将能够比较不同的这些措施。所以我将在并选择质量最好的那个。我如何计算这样的质量度量?
更新:
这是是错误聚类的示例。假设平面上有3个点形成等边三角形。将这些点分成 2 个集群显然比将它们分成 1 或 3 个集群更糟糕。