为了比较两个分层(树状)结构的相似性,使用了基于共生相关思想的度量。但是,为了在层次聚类中选择“正确”的方法或距离度量而进行树状图比较是否正确?
关于层次聚类分析,有一些要点 - 隐藏的障碍 - 我认为非常重要:
- 永远不要在视觉上比较通过不同的聚集方法获得的树状图(为了选择给出更强划分的方法)。它不会告诉您哪种方法“更好”。每种方法都有自己的“原型”树外观:即使数据没有集群结构或具有随机集群结构,这些树也会始终如一地不同。(而且我不认为存在可以消除这些内在差异的标准化或措施。)。但是,您可以比较由相同方法但不同数据产生的结果的树状图外观。Maxim:直接,不同方法后树状图的外观比较是不可接受的。
- 不要通过查看Ward方法的树状图来决定簇的数量(即在哪里砍树) 。在 Ward 中,树显示的是总和而非平均的拼凑系数的增长;结果是,由于后面的簇在点数上更大,所以后面的簇在树上看起来会误导“更好”。为了适当地标准化 Ward 的树状图,将每一步的系数增长除以组合的两个集群中的总点数(但是,这种标准化的 Ward 树状图可能难以以图形方式实现)。1 格言:虽然可能通过考虑树状图外观来选择切割级别,但这并不是选择分区的最佳方法,并且对于某些方法可能会产生误导。建议改用一些正式的内部聚类标准(另请参见此处)。
- 尽管没有人可以禁止你“试验”距离测量或凝聚方法,但最好有意识地选择距离和方法,而不是盲目尝试。距离应该反映您感兴趣的差异方面,并且该方法 - 必须注意 - 暗示了集群的特定原型(例如,我会说,Ward 集群的隐喻是type ; 完全链接后的集群将是圆[按爱好或情节];单一链接后的集群将是频谱[链];质心方法后的集群将是平台的接近度[政治];平均链接集群在概念上是最无差别的,并且通常是统一的类)。
- 一些方法需要正确的距离测量和/或正确的数据类型。例如,沃德和质心在逻辑上需要(平方)欧几里得距离——因为这些方法涉及欧几里得空间中的质心计算。并且几何质心的计算与例如二进制数据不协调;数据应该是规模/连续的。格言:数据/距离/方法假设和对应关系是非常重要且不是那么容易的问题。
- 预处理(例如对变量/特征进行中心化、缩放和其他形式的变换)预先计算距离矩阵和进行聚类也是非常重要的问题。它可以极大地影响结果。想想什么预处理可以帮助你,并且从解释的角度来看是有意义的。此外,在尝试进行聚类分析之前,不要害羞地以图形方式仔细检查您的数据。
- 并非所有的凝聚聚类方法都可以同等地视为给你分层分类......在哲学基础上。例如,centroid 方法在某种意义上确实给出了层次结构,因为集群中心是集群作为一个整体的涌现和定义特征,并且合并集群是由该特征驱动的。另一方面,完全链接在合并两个子集群时会“解散”它们 - 由于两个子集群的各个对象之间存在距离。因此,完整的连锁树状图只是收集的历史,而不是父子分类法。Maxim:层次凝聚聚类分析通常期望您根据其结果进行分区,而不是将结果视为层次分类法。
- 层次聚类是典型的贪心算法,它在每一步出现的备选方案中做出最佳选择,以期最终接近最优解。然而,出现在高级步骤上的“最佳”选择可能比理论上可能在该步骤上可能出现的全局最优差。通常,步骤越大,次优性越大。鉴于我们通常需要很少的集群,最后一步很重要;并且,正如刚才所说,如果步数很高(例如,第千步),它们预计会相对较差。这就是为什么即使程序可以处理如此大的距离矩阵,通常也不建议对大型对象样本(数以千计的对象)进行层次聚类。
如果在采取上述预防措施之后,您仍然认为您想要衡量分层分类之间的相似性,您可能会在“比较树状图”和“比较分层分类”上搜索。一个最暗示自己的想法可能是基于共同相关性:对于n 个对象的同一数据集有两个树状图,让是每对对象ij之间的拼合系数(或者可能是它的等级,步数)一个树状图,并且在另一个树状图中同样相同。计算相关性或余弦。XijYij
1 稍后更新Wards方法的树状图问题。不同的聚类程序可能会为 Ward 方法输出不同的变换聚集系数。因此,尽管聚类历史和结果相同,但它们的树状图看起来会有所不同。例如,SPSS 不会从超度量系数中求根,而是将它们累积到输出中。另一个传统(例如,在某些 R 包中发现)是扎根(所谓的“Ward-2”实现)而不是累积。再重复一遍,这种差异只影响树状图的一般形状/外观,而不影响聚类结果。但是树状图的外观可能会影响您对集群数量的决定。道理是,在 Ward 的方法中完全不依赖树状图是安全的,除非您确切地知道程序中的这些系数是什么以及如何正确解释它们。