使用判别分析对聚类进行分类

机器算法验证 r 聚类 判别分析
2022-04-13 18:44:05

假设我有 5 个变量的 100 个人的数据,比如 Var1、Var2、...Var5。我在这 100 行上使用这 5 个变量运行聚类分析并得到 3 个聚类。现在,我想根据 5 个变量来区分这 3 个集群。也就是说,这 5 个变量中的哪个变量为哪个集群加载了更多,以便对集群进行有意义的解释。在这里我不想做 PCA 或其他因素分析。

我听说我可以使用判别分析来做到这一点。任何人都可以建议我这样做的方法吗?

1个回答

一个好主意可能是在集群上为您使用的任何变量运行一些 ANOVAS 和 MANOVAS。生成集群的变量通常会产生显着差异,但如果您合并的 5 个新变量不是您用于生成集群解决方案的变量,那么运行它们会很有趣。

ANOVA 或简单的比较均值检验(可能是 t 检验)将为您提供 F 统计量,这是一个相对较好的指标,表明每个组 [在这种情况下为集群] 在相关变量方面的差异程度。

如果您的新 5 个变量是分类的,它可能就像卡方检验一样简单,但您可以尝试多个对应关系。多重对应产生一个双图,使得类别之间的距离是它们倾向于一起发生多少的指标,因此如果您的集群 1 非常接近 3 个类别,您可以得出结论,这三个类别是集群 1 的特征。

或者,您知道,只需描述每个集群的单变量统计信息。