当存在更多因素时,提取更多因素总是更好吗?

机器算法验证 参考 因子分析 心理测量学
2022-03-05 01:17:03

与主成分分析不同,因子分析模型的解不一定是嵌套的。也就是说,当仅提取第一个因子与提取前两个因子时,第一个因子的负载(例如)不一定相同。

考虑到这一点,考虑这样一种情况,您有一组高度相关的明显变量,并且(根据对其内容的理论知识)应该由一个因素驱动。想象一下,探索性因素分析(通过您喜欢的任何指标:平行分析、碎石图、特征值 >1 等)强烈表明存在因素:一个大的主要因素和一个小的次要因素。您对使用清单变量和因子解决方案来估计(即,获得因子分数)参与者对第一个因子的值感兴趣。 在这种情况下,最好:2

  1. 拟合因子模型以仅提取因子,并获得因子分数(等),或1
  2. 拟合因子模型以提取两个因子,获取因子的因子分数,但丢弃/忽略第二个因子的分数?

对于哪个更好的做法,为什么? 有没有关于这个问题的研究?

3个回答

您提到的问题是构建心理测试仪器时的“近似一维性”主题,这在 80 年代的文献中已经讨论了很多。灵感存在于过去,因为从业者希望对他们的项目使用传统的项目响应理论 (IRT) 模型,而当时这些 IRT 模型仅限于测量一维特征。因此,希望测试多维性是一种麻烦,(希望)可以避免或忽略。这也是导致在因子分析(Drasgow 和 Parsons,1983 年)和 DETECT 方法中创建并行分析技术的原因。

忽略其他特征/因素的后果,除了明显将错误的模型拟合到数据(即,忽略有关潜在模型不拟合的信息;尽管它当然可能是微不足道的),是对主导因素的特征估计将变得有偏差,并且因此效率较低。这些结论当然取决于附加特征的属性如何(例如,它们是否与主要维度相关,它们是否具有强载荷,存在多少交叉载荷等),但总体主题是次要估计获得主要特征分数将不太有效。请参阅此处的技术报告,了解失配的一维模型和双因子模型之间的比较;技术报告似乎正是您所追求的。

从实践的角度来看,在选择最佳模型以及一般的模型拟合统计量(RMSEA、CFI 等)时,使用信息标准可能会有所帮助,因为忽略多维信息的后果将对数据的整体拟合产生负面影响. 但是,当然,整体模型拟合只是对手头数据使用不合适模型的一个迹象。完全有可能使用了不正确的函数形式,例如非线性或缺乏单调性,因此也应始终检查相应的项目/变量。

另见

Drasgow, F. 和 Parsons, CK (1983)。单维项目响应理论模型在多维数据中的应用。应用心理测量,7 (2), 189-199。

Drasgow, F. & Lissak, RI (1983)。改进的平行分析:检查二分计分项目响应的潜在维度的程序。应用心理学杂志,68,363-373。

Levent Kirisci、Tse-chi Hsu 和 Lifa Yu (2001)。项目参数估计程序对单维性和正态性假设的鲁棒性。应用心理测量,25 (2), 146-162。

如果你真的不想使用第二个因素,你应该只使用一个因素模型。但我对您的评论感到困惑,即如果您使用第二个因素,第一个因素的负载会发生变化。

让我们首先处理该声明。如果您使用主成分来提取因子并且不使用因子旋转,那么载荷将不会改变——可能会受到缩放(或完全翻转:如果是一个因子,那么是将其表达为好)。如果您使用最大似然提取和/或因子旋转,则载荷可能取决于您提取的因子数量。xx

接下来,解释旋转的影响。我不擅长画画,所以我会尝试用文字说服你。我将假设您的数据(大约)正常,因此因子分数也大致正常。如果你提取一个因素,你会得到一维正态分布,如果你提取两个因素,你会得到一个二元正态分布。

双变量分布的密度大致看起来像一顶帽子,但确切的形状取决于比例以及相关系数。所以让我们假设这两个分量都有单位方差。在不相关的情况下,您会得到一个漂亮的阔边帽,其水平曲线看起来像圆形。一张照片在这里相关性“挤压”了帽子,使其看起来更像拿破仑帽子

假设您的原始数据集具有三个维度,您想从中提取两个因素。让我们也坚持常态。在这种情况下,密度是一个四维对象,但水平曲线是三维的,至少可以可视化。在不相关的情况下,水平曲线是球形的(就像足球一样)。在存在相关性的情况下,水平曲线将再次扭曲,变成足球,可能是充气不足的足球,因此接缝处的厚度小于其他方向的厚度。

如果使用 PCA 提取两个因子,则将足球完全展平为椭圆(并将每个数据点投影到椭圆的平面上)。未旋转的第一个因子对应于椭圆的长轴,第二个因子与之垂直(即短轴)。然后旋转在这个椭圆内选择一个坐标系以满足其他一些方便的标准。

如果仅提取单个因子,则不可能进行旋转,但可以保证提取的 PCA 因子对应于椭圆的长轴。

为什么不使用 lavaan 或 MPlus 之类的东西来运行两个模型(一维模型和与 EFA 结果对齐的二维模型)并比较不同模型的相对和绝对拟合指数(即信息标准 - AIC 和 BIC, RMSEA、SRMR、CFI/TLI)?请注意,如果您走这条路,您将不想将 PCA 用于 EFA,而是使用主要因素。真正关心测量的人会将 CFA 嵌入到完整的结构方程模型中。

编辑:我要求您考虑的方法更多的是弄清楚有多少潜在变量实际上解释了一组项目。如果您想获得对较大因子的最佳估计,我会投票支持使用 CFA 模型中的因子得分具有更好的拟合度,无论是哪一个。