我必须减少变量的数量才能进行聚类分析。我的变量是强相关的,所以我想做一个因子分析PCA(主成分分析)。但是,如果我使用结果分数,我的聚类并不完全正确(与文献中的先前分类相比)。
问题:
我可以使用旋转矩阵为每个组件/因子选择负载最大的变量,并仅将这些变量用于我的聚类吗?
任何参考书目也会有所帮助。
更新:
一些澄清:
我的目标: 我必须使用 SPSS 的两步算法运行聚类分析,但我的变量不是独立的,所以我考虑丢弃其中的一些。
我的数据集: 我正在处理 100,000 个案例的 15 个标量参数(我的变量)。一些变量是强相关的( Pearson)
我的疑问: 因为我只需要自变量,所以我想运行主成分分析(对不起:我在最初的问题中错误地谈到了因子分析,我的错误),并且只选择每个成分负载最大的变量。我知道 PCA 过程提供了一些任意步骤,但我发现这种选择实际上类似于 IT Jolliffe (1972 & 2002) 提出的用于选择变量的“方法 B4 ”,也是 JR King 和 DA Jackson 在 1999 年提出的.
所以我想以这种方式选择一些自变量的子组。然后,我将使用这些组来运行不同的聚类分析,并比较结果。