我正在尝试从问卷中识别出多维数据背后的人格特征。用更抽象的术语来说,这意味着将我的数据的维度从 N 维(其中 N 是问题的数量)减少到更易于管理的数字(通常根据这些维度可能包含多少方差来选择)。需要注意的关键是,鉴于人格特征的模糊性,预计这些维度不是正交的。
一般来说,心理学家喜欢通过因子分析来做我上面描述的事情。我对 PCA、FA 和 ICA 之间的区别有了基本的了解。我也知道 ICA 不常用于降维。
我构建了一组沿两个非正交维度正常分布的二维数据点,以评估这些方法的适用性。可以在此处找到生成数据和绘制图形的完整脚本。诚然,这是关于重新映射维度,但减少它需要比我可以很好地绘制的更高维度的数据。
下面显示了脚本将生成的图形类型的示例:
- FA 的第二个因子是 [0,0]。即使我手动要求函数返回两个因子,这也不会改变。为什么 FA 试图将所有内容都压缩到一个因素中(当很明显这不是生成我的数据的潜在变量时)?我听说 FA 的优势之一是它可以返回非正交维度。为什么这里没有发生?
- ICA 似乎在这里做对了。那么为什么不使用它来将问卷数据重新映射到更有意义的维度呢?我听说 ICA 组件是无序的 - 这是问题的一部分吗?如果是这样,为什么不能确定每个组件解释了多少方差,并相应地对它们进行排序?
那么,在分析问卷数据时,为什么有人宁愿使用 FA 而不是 ICA?
