序数或二进制数据是否有因子分析或 PCA?

机器算法验证 主成分分析 因子分析 序数数据 二进制数据 李克特
2022-02-06 21:46:34

我已经完成了主成分分析(PCA)、探索性因素分析(EFA)和验证性因素分析(CFA),用李克特量表(5级反应:无、一点、一些、..)处理数据作为连续多变的。然后,使用 Lavaan,我重复了 CFA 将变量定义为分类。

我想知道当数据本质上是序数时,哪些类型的分析适合并且等同于 PCA 和 EFA 。而当二进制.

我也很感激对可以轻松实现此类分析的特定软件包或软件的建议。

1个回答

传统(线性)PCA 和因子分析需要尺度级别(区间或比率)数据。通常,李克特类型的评级数据被假定为规模级别,因为此类数据更易于分析。而且这个决定有时在统计上是有根据的,特别是当有序类别的数量大于 5 或​​ 6 时。(尽管纯粹从逻辑上讲,数据类型的问题和比例级别的数量是不同的。)

但是,如果您更愿意将多分李克特量表视为序数呢?或者你有二分法数据?是否可以为他们进行探索性因素分析或 PCA?

目前有三种主要方法可以对分类序数或二元变量执行 FA(包括作为其特例的 PCA)(另请阅读关于二进制数据情况的说明,以及关于可能使用序数尺度做什么的考虑)

  1. 最佳缩放方法(一系列应用程序)。也称为分类 PCA (CatPCA) 或非线性 FA. 在 CatPCA 中,序数变量在目标下被单调变换(“量化”)成它们的“基础”区间版本,以最大化从这些区间数据中提取的选定数量的主成分所解释的方差。这使得该方法公开目标驱动(而不是理论驱动)并且重要的是提前确定主成分的数量。如果需要真正的 FA 而不是 PCA,则可以自然地对从 CatPCA 输出的那些转换变量执行通常的线性 FA。对于二元变量,CatPCA(很遗憾?)的行为方式与通常的 PCA 相同,也就是说,就好像它们是连续变量一样。CatPCA 也接受名义变量和变量类型的任何混合(很好)。

  2. 推断的基础变量方法。也称为 PCA/FA,对弦(用于二进制数据)或多(用于序数数据)相关性进行。对于每个清单变量,假设基础(然后分箱)连续变量为正态分布。然后应用经典FA来分析上述相关性。该方法很容易允许混合区间、序数、二进制数据。该方法的一个缺点是 - 在推断相关性时 - 它没有关于基础变量的多元分布的线索 - 最多可以“构想”二元分布,因此不以完整信息为基础。

  3. 项目反应理论(IRT)方法。有时也称为逻辑 FA潜在特征分析。应用了一个非常接近二进制 logit(对于二进制数据)或比例对数几率(对于序数数据)模型的模型。该算法与相关矩阵的分解无关,因此它与传统的 FA 有点不同,但它仍然是一个真正的分类 FA。“判别参数”与 FA 的负载密切相关,但“困难”取代了 FA 的“唯一性”概念。随着因子数量的增加,IRT 拟合确定性迅速降低,这是这种方法的一个问题。IRT 可以以自己的方式扩展,以合并混合区间+二进制+序数和可能的名义变量。

方法 (2) 和 (3) 中的因子分数比经典 FA 或方法 (1) 中的因子分数更难估计。但是,确实存在几种方法(预期或最大后验方法、最大似然方法等)。

三种方法中的因子分析模型假设与传统 FA 中的基本相同。方法(1)可用于 R、SPSS、SAS(在我看来)。方法 (2) 和 (3) 主要在专门的潜在变量包中实现 - Mplus、LISREL、EQS。

  1. 多项式方法。那还没有完全开发。主成分可以建模为变量的多项式组合(使用多项式是一种流行的方法来模拟序数回归量的非线性效应。)。此外,观察到的类别反过来可以建模为潜在因素的多项式组合的离散表现。

  2. 存在一个蓬勃发展的非线性降维技术领域;其中一些可以应用或采用来处理分类数据(尤其是二进制数据或在二进制化为高维稀疏数据集之后)。

  3. 对等级相关性或其他适用于分类数据的关联(Spearman/Kendall/Somer's 等)执行经典(线性)FA/PCA。对于序数数据,这纯粹是启发式方法,缺乏理论依据根本不推荐。对于二进制数据,Spearman rho 和 Kendall tau-b 相关以及 Phi 关联都等于 Pearson r 相关,因此使用它们只不过是对二进制数据执行通常的线性 FA/PCA(这里有一些危险)。也有可能(尽管并非毫无疑问)对重新调整其当前幅度界限进行分析。r

也看看这个这个这个这个这个这个这个这个