1)您链接到的技术支持回复显示,层次聚类比两步聚类更不适合二进制数据,对我来说是不正确的。
确实,当对象之间存在大量不具有唯一值的距离(“绑定”或“重复”距离)时,这是完全可以预料的,对于任何少值离散数据,不仅是二进制数据, - 聚类的结果很大程度上取决于对象的处理顺序。但是这个丑闻伴随着任何聚类方法,任何直接或间接基于某种距离/相似性度量的方法。如果确定集群的数量中有一些联系 - 这可能会显示为不稳定的解决方案。因此,由联系引起的不稳定是自然的,不能成为反对这种或那种方法可能会受到影响的论据。
在链接注释的特定情况下,您可以确保两步聚类方法也将 - 像分层方法一样 - 在提供的数据集中观察的不同排序顺序下不时给出不同的结果。因此,在这方面,我看不出一种方法比另一种方法有任何优势。
2)层次聚类非常适合二进制数据,因为它允许从为二进制数据发明的大量距离函数中进行选择,并且理论上比简单的欧几里得距离更合理。然而,一些聚集方法只需要(平方)欧几里得距离。关于层次聚类,这里有几点需要记住。
在选择相似性函数时,关于二进制/二分数据的一个重要问题是您的数据是有序二进制(不对称类别:存在与不存在)还是名义二进制(对称类别:此与那个)。换句话说,0-0匹配是否应该是相似的基础?(您可能想阅读这样的答案,这个。)
3) SPSS的两步聚类方法可以与二元/二分数据一起使用,作为分层(和其他一些)方法的替代方法(一些相关答案this,this)。然而,分类变量的两步处理采用对数似然距离,这对于名义,而不是“序数二进制”类别。因此,如果您将数据视为后者,您就会遇到问题。将变量视为定量(区间)不会解决它。在某些特定情况下,可以非常有效地将多个二元特征转换为一个或多个多项名义特征;一般来说,在不丢失信息的情况下做到这一点将是一项相当棘手的任务。有经验的分析师可能会尝试优化缩放技术和多重对应分析,以查看多个二元特征是否可以被较少数量的等效定量特征很好地替代。