在探索性因素分析中确定因素的数量

机器算法验证 r 因子分析 自由程度
2022-03-22 16:35:27

我正在使用 R 的factanal函数进行因子分析。我从阅读中知道,有多种方法可以选择在分析中使用多少个因素。我不知道该选择哪个,也不知道如何做。

这是我到目前为止所拥有的数据factanal我不明白什么是 SS 负载,或者为什么 degree_of_freedom 不是 = min(#rows,#columns) - #factors。

仅从我认为我理解的 Cumulative Var 来看,我猜想 2 是正确的因子数,但我是对的吗?如果是这样,我如何让其他人相信这是正确数量的因素?

factanal(x = charges[3:8], factors = 1)

#                Factor1
# SS loadings      4.779
# Proportion Var   0.797

检验 1 个因素就足够的假设。卡方统计量在 9 个自由度上为 279.13。p 值为 6.9e-55

factanal(x = charges[3:8], factors = 2, scores = "regression")

#                Factor1 Factor2
# SS loadings      2.817   2.544
# Proportion Var   0.470   0.424
# Cumulative Var   0.470   0.894

检验 2 个因素就足够的假设。卡方统计量在 4 个自由度上为 77.1。p 值为 7.15e-16

factanal(x = charges[3:8], factors = 3)

#                Factor1 Factor2 Factor3
# SS loadings      2.769   2.618   0.063
# Proportion Var   0.461   0.436   0.010
# Cumulative Var   0.461   0.898   0.908

模型的自由度为 0,拟合为 0.1047

2个回答

有几种方法可以确定要探索性因子分析 (EFA)提取的因子数量然而,实际上所有这些都归结为视觉分析

视觉方法主要基于因子特征值的视觉表示(所谓的碎石图- 参见本页本页),具体取决于提取的因子数。碎石图允许通过检测一个区域来确定要提取的因子的数量,在该区域中曲线会相对急剧下降(称为“肘部”)。请注意,碎石图术语也适用于主成分分析 (PCA) - 有关基本示例,请参阅此页面

分析方法基于各种标准和启发式,包括Kaiser 标准(特征值大于 1)、方差解释标准(该启发式的截止值从 0.8-0.9 到低至 0.5,取决于研究人员的具体目标)、平行分析非常简单的结构 (VSS) 标准Velicer 的 MAP 测试和其他技术(请参阅此处此处的更多详细信息,以及通过其中的链接)。

虽然我试图简要回答您的问题并主要概述该主题,但对于Cross Validated上的类似或相关问题有许多不错的答案,我强烈建议您查看。例如,对于 PCA 与 EFA 的基本论点,请参阅此讨论有关此主题的更多高级论点,请参阅讨论。对于应用 VSS 标准,使用R,请参阅此讨论有关并行分析,请参阅此讨论

我认为我无法专门为您提供 R 方面的帮助,但验证因子数量的一个常见步骤是查看载荷并保留与值为 1 或更大的因子一样多的因子。这是选择因子最直接的方法。如果您愿意,您可以设法获得“碎石图”,它可以让您更直观地了解因素的数量,但更主观。在该图中,当您在绘制的曲线中“下降”时可能表明因素的数量。当您想减少具有许多高度相关变量的大型数据集的变量数量时,这种方法非常有用。所以两个是在你的情况下要提取的因素的数量。

相反,如果您想真正对变量进行聚类,并且该因素对人或经济行为有意义,您可能只想选择两个或三个最高负载,因为您将能够访问旋转空间中的分量图,即二维(或三维)空间中变量的图形表示,如果这是您的目标,它会为您提供解释因子的线索。

由于您将学习的理论参考资料放在工作结束时,您将告诉其他人您没有做一些稀疏的事情 - 它基于其他人陈述的证据。例如,从统计上讲,您可以在从 pca 获得的分数与响应变量之间进行相关性分析。如果 PCA 没问题,并且原始变量也与此响应变量相关,那么您的因素也将是,并且您将拥有一个非常可靠且易于理解的数字来说服人们。

希望这对您有所帮助。如果我说错了什么,请任何人纠正我。