是否使用 EFA 或 CFA 来预测潜在变量分数?

机器算法验证 r 因子分析 结构方程建模 确认因素 熔岩
2022-03-25 11:26:52

我有一个个人观察的数据框,我对其进行分区以创建一个训练集(0.7 道具)和一个测试集(0.3 道具)。

我首先在训练集(使用psych::fa函数)上运行探索性因子分析 (EFA)。然后,根据结果,我在测试集上拟合了一个 CFA(用lavaan),将每个观察到的变量与一个基于其最大负载的潜在因子相关联。

然后,我想将这些潜在变量用作其他分析的新变量(使用因子分析作为特征减少方法)。我知道最好进行结构方程建模,因为这些潜在变量包括错误,但这不是我想要拟合的模型的选择。

无论如何,我应该使用 EFA 或 CFA 的结果来预测我的初始数据帧上的新因素吗?

2个回答

正如 Jeremy 指出的那样,EFA、CFA 和 IRT 模型的分数通常会非常一致。在一维尺度或二阶因子模型的情况下尤其如此(因为这将使您在处理高阶因子时回到几乎相同的配置)。此外,不考虑测量误差但通常用于选择相关因素数量的 PCA 也将与这些因素分数高度相关,就像原始总和量表分数的情况一样,只要量表是真正的一维 - - 毕竟,所有项目分数的简单或加权总和都是总结潜在特征所需的全部。在多维尺度的情况下,如果有意义,您可以单独考虑每个尺度。

为了说明,这里是 Holzinger & Swineford (1939) 研究的三个分量表之一,可在lavaan. 我选择了一个简单的相关因子模型,尽管可以构建其他几个 CFA 模型(并且同样有效)。在(斜)EFA 的情况下,我使用主轴分解来提取因子。EFA 和 CFA 模型均在所有项目(3 个分量表)上进行了估计。对于 PCA,我将计算限制在单个“视觉”子尺度上(以避免在 PCA 之后旋转)。

如下图所示(横轴为 EFA 因子得分,纵轴为 PCA 或 CFA 得分),两种情况下的相关性均高于 0.95。

在此处输入图像描述

当然,在 EFA 框架中构建因子得分的方法有很多,例如,参见DiStefano 等人的《理解和使用因子得分:应用研究人员的考虑》 。我几乎可以肯定我遇到过有关 EFA 和 CFA 分数之间相关性的论文,但我再也无法接触到它了。

“尝试两者并选择效果最好的那个并不奇怪”——真正有问题的是在不测试独立样本的相关性的情况下强制一个因子结构,这只是利用机会,IMO:我只想如果因子结构已经定义,建议使用 CFA 因子分数,或者如果兴趣只是减少特征,则使用 E​​FA 分数(就像在回归上下文中使用 PCR 中的 PCA 分数一样)。EFA 和 CFA 之间的差异经常被夸大,因为这两种方法都是有用的,即使在探索性方法中也是如此(CFA 具有模型拟合指数,这可能有帮助,也可能没有帮助)。

看起来您似乎对提取(即观察)潜在变量分数感兴趣以进行预测(即,不一定要进行推断)。鉴于此,我也不排除 PCA(同时注意到它与 EFA 的相似性;有关更多详细信息,请参见下面的链接)。此外,由于您的目标预测,我不建议使用 CFA,因为最可解释的模型可能不是最适合您的目的。

使用 PCA 代替 EFA 有什么好的理由吗?另外,PCA 可以替代因子分析吗?