PCA vs FA vs ICA 用于问卷数据的降维

机器算法验证 主成分分析 因子分析 民意调查 降维 独立成分分析
2022-03-31 06:14:41

我正在尝试从问卷中识别出多维数据背后的人格特征。用更抽象的术语来说,这意味着将我的数据的维度从 N 维(其中 N 是问题的数量)减少到更易于管理的数字(通常根据这些维度可能包含多少方差来选择)。需要注意的关键是,鉴于人格特征的模糊性,预计这些维度不是正交的。

一般来说,心理学家喜欢通过因子分析来做我上面描述的事情。我对 PCA、FA 和 ICA 之间的区别有了基本的了解。我也知道 ICA 不常用于降维。

我构建了一组沿两个非正交维度正常分布的二维数据点,以评估这些方法的适用性。可以在此处找到生成数据和绘制图形的完整脚本。诚然,这是关于重新映射维度,但减少它需要比我可以很好地绘制的更高维度的数据。

下面显示了脚本将生成的图形类型的示例:

在此处输入图像描述

  • FA 的第二个因子是 [0,0]。即使我手动要求函数返回两个因子,这也不会改变。为什么 FA 试图将所有内容都压缩到一个因素中(当很明显这不是生成我的数据的潜在变量时)?我听说 FA 的优势之一是它可以返回非正交维度。为什么这里没有发生?
  • ICA 似乎在这里做对了。那么为什么不使用它来将问卷数据重新映射到更有意义的维度呢?我听说 ICA 组件是无序的 - 这是问题的一部分吗?如果是这样,为什么不能确定每个组件解释了多少方差,并相应地对它们进行排序?

那么,在分析问卷数据时,为什么有人宁愿使用 FA 而不是 ICA?

1个回答

我很好奇你的问题,因为我从来没有听说过独立成分分析(ICA),但我一直在使用因子分析。所以查找 ICA,我发现其中一个关键假设是“每个源信号中的值具有非高斯分布”(维基百科)。如果我们试图辨别或确认一个潜在的结构,这似乎不是一个很有帮助的假设——比如人格特征,如果我们假设我们的项目反应是从正态分布中得出的,或者我们的潜在构造是正态分布的。因此,ICA 似乎用于研究无线电信号之类的事情,而不是用于研究人格特征。