距离是否必须是层次聚类的“度量”才能在其上有效?

机器算法验证 聚类 多层次分析 公制 层次聚类
2022-03-26 11:22:14

假设我们定义了N 个项目之间的距离,它不是度量。

基于这个距离,我们然后使用凝聚层次聚类

我们可以使用每个已知算法(单/最大/平均链接等)来获得有意义的结果吗?或者换一种说法,如果距离不是度量,那么使用它们有什么问题?

2个回答

距离要求取决于层次聚类的方法。单一的、完整的、平均的方法需要距离是非负的和对称的。Ward、质心、中值方法需要(平方)欧几里得(比公制更窄的定义)距离来产生几何上有意义的结果。

(可以通过将他/她的距离矩阵加倍居中来检查他/她的距离矩阵是否为欧几里得 [见我的回复]并查看特征值;如果没有找到负特征值,那么距离确实会在欧几里得空间中收敛。)

不,距离不一定是度量标准。例如,它可以是一个超度量:

d(A,B)max(d(A,C),d(B,C))

从聚类算法中的连续步骤获得的超度量距离可以使用树状图表示,您可能已经在这种情况下看到过。