二进制数据的分层或双步聚类分析?

机器算法验证 聚类 spss 二进制数据
2022-04-09 11:36:07

(这个问题是我之前发布的一个问题的编辑版本,一位用户推荐的问题将受益于更多关注)。

我收到了来自受访者的 2000 份问卷,其中就他们生活中存在哪些问题提出了 33 个不同的问题——即酗酒、家庭暴力、心理健康、虐待儿童、学习困难等。

每个问题只能回答是/否(我已将其重新编码为 1/0)。

我想使用这个数据集开始创建 n 个受访者的个人资料,以定义哪些变量自然聚集在一起,例如(酗酒和家庭暴力)、(心理健康、虐待儿童、家庭暴力)、(酗酒、学习困难)部分/全部 33 个不同的变量。

我在网上阅读的注释表明,由于数据在数据集中排序位置的敏感性,层次聚类分析不适合这种规模/类型的数据集,并建议改为两步聚类分析。

因此,我真的很想知道您对分层、两步或其他方法是否最适合探索使用二进制数据集自然关联在一起的响应集群的输入。

1个回答

1)您链接到的技术支持回复显示,层次聚类比两步聚类更不适合二进制数据,对我来说是不正确的。

确实,当对象之间存在大量不具有唯一值的距离(“绑定”或“重复”距离)时,这是完全可以预料的,对于任何少值离散数据,不仅是二进制数据, - 聚类的结果很大程度上取决于对象的处理顺序。但是这个丑闻伴随着任何聚类方法,任何直接或间接基于某种距离/相似性度量的方法。如果确定集群的数量中有一些联系 - 这可能会显示为不稳定的解决方案。因此,由联系引起的不稳定是自然的,不能成为反对这种或那种方法可能会受到影响的论据。

在链接注释的特定情况下,您可以确保两步聚类方法也将 - 像分层方法一样 - 在提供的数据集中观察的不同排序顺序下不时给出不同的结果。因此,在这方面,我看不出一种方法比另一种方法有任何优势。

2)层次聚类非常适合二进制数据,因为它允许从为二进制数据发明的大量距离函数中进行选择,并且理论上比简单的欧几里得距离更合理。然而,一些聚集方法只需要(平方)欧几里得距离。关于层次聚类,这里有几点需要记住。

在选择相似性函数时,关于二进制/二分数据的一个重要问题是您的数据是有序二进制(不对称类别:存在与不存在)还是名义二进制(对称类别:此与那个)。换句话说,0-0匹配是否应该是相似的基础?(您可能想阅读这样的答案这个

3) SPSS的两步聚类方法可以与二元/二分数据一起使用,作为分层(和其他一些)方法的替代方法(一些相关答案thisthis)。然而,分类变量的两步处理采用对数似然距离,这对于名义,而不是“序数二进制”类别。因此,如果您将数据视为后者,您就会遇到问题。将变量视为定量(区间)不会解决它。在某些特定情况下,可以非常有效地将多个二元特征转换为一个或多个多项名义特征;一般来说,在不丢失信息的情况下做到这一点将是一项相当棘手的任务。有经验的分析师可能会尝试优化缩放技术和多重对应分析,以查看多个二元特征是否可以被较少数量的等效定量特征很好地替代。