机器算法验证 - PCA vs FA vs ICA 用于问卷数据的降维 - 吾爱随笔录

我正在尝试从问卷中识别出多维数据背后的人格特征。用更抽象的术语来说，这意味着将我的数据的维度从 N 维（其中 N 是问题的数量）减少到更易于管理的数字（通常根据这些维度可能包含多少方差来选择）。需要注意的关键是，鉴于人格特征的模糊性，预计这些维度不是正交的。

一般来说，心理学家喜欢通过因子分析来做我上面描述的事情。我对 PCA、FA 和 ICA 之间的区别有了基本的了解。我也知道 ICA 不常用于降维。

我构建了一组沿两个非正交维度正常分布的二维数据点，以评估这些方法的适用性。可以在此处找到生成数据和绘制图形的完整脚本。诚然，这是关于重新映射维度，但减少它需要比我可以很好地绘制的更高维度的数据。

下面显示了脚本将生成的图形类型的示例：

FA 的第二个因子是 [0,0]。即使我手动要求函数返回两个因子，这也不会改变。为什么 FA 试图将所有内容都压缩到一个因素中（当很明显这不是生成我的数据的潜在变量时）？我听说 FA 的优势之一是它可以返回非正交维度。为什么这里没有发生？
ICA 似乎在这里做对了。那么为什么不使用它来将问卷数据重新映射到更有意义的维度呢？我听说 ICA 组件是无序的 - 这是问题的一部分吗？如果是这样，为什么不能确定每个组件解释了多少方差，并相应地对它们进行排序？

那么，在分析问卷数据时，为什么有人宁愿使用 FA 而不是 ICA？