使用主轴分解提取方法时,探索性因子分析是否需要对非正态数据进行数据转换?

机器算法验证 因子分析 偏度 峰度 探索性数据分析
2022-03-13 12:46:18

我正在制定一份问卷来衡量构成灵性的四个因素,我想问以下问题:

使用主轴分解提取方法时,探索性因子分析是否需要对非正态数据进行数据转换?

我昨天完成了数据筛选,我发现 20 个问题中有 3 个是正偏斜的,而 20 个问题中有 1 个是负偏斜的(问题 6 = 4.88,问题 9 = 7.22,问题 12 = 11.11,问题 16 = -6.26)。我还发现其中 1 个问题(共 20 个)是尖峰问题(问题 12 = 12.21)。

我选择了主轴分解提取方法,因为我读到它用于“严重非正常数据”,而最大似然用于正常数据,但是:

  1. 我怎么知道我的数据是否“严重”不正常?

  2. 如果我的数据“非常不正常”,这是否意味着我可以保留数据原样(而不是对其进行转换)并使用主轴分解提取方法对其进行分析?还是我需要在进行 EFA 之前转换数据?

  3. 如果我确实需要转换数据,我会对正偏态、负偏态和细峰项目使用哪些转换?

2个回答

因子分析本质上是一个(受约束的)线性回归模型。在该模型中,每个分析变量都是因变量,公因子是IV,隐含的唯一因子作为误差项。(由于在计算协方差或相关性中隐含的中心化或标准化,常数项设置为零。)因此,就像在线性回归中一样,可能存在“强”正态假设 - IV(公因子)是多元正态和错误(唯一因素)是正常的,这会自动导致DV是正常的;和正常的“弱”假设 - 错误(唯一因素)只是正常的,因此 DV 不需要是正常的。在回归和 FA 中,我们通常承认“弱”假设,因为它更现实。

在经典的 FA 提取方法中,只有最大似然法,因为它背离了人口的特征,表明分析的变量是多元正态的。诸如主轴或最小残差之类的方法不需要这种“强”假设(尽管无论如何您都可以做到)。

请记住,即使您的变量分别是正态的,也不一定保证您的数据是多元正态的。

让我们接受正态性的“弱”假设。那么,像您这样的严重倾斜数据带来的潜在威胁是什么?它是异常值。如果变量的分布非常不对称,则较长的尾巴在计算相关性或协方差时会变得更加有影响力,同时它会引起人们对它是否仍然测量与较短尾巴相同的心理结构(因素)的担忧。比较建立在评级量表下半部分和上半部分的相关矩阵是否相似可能会很谨慎。如果它们足够相似,您可能会得出结论,两条尾巴都测量相同的东西并且不会转换您的变量。否则你应该考虑转换或其他一些动作来抵消“异常值”长尾的影响。

转变很多。例如,对左偏数据使用幂 > 1 或取幂,对于右偏数据使用幂 < 1 或对数。我自己的经验表明,通过在 FA 之前执行的分类 PCA进行所谓的优化转换几乎总是有益的,因为它通常会导致 FA 中更清晰、可解释的因素;在已知因素数量的假设下,它会非线性地转换您的数据,以最大化由该数量因素引起的总体方差。

我只是发布我从 Yong 和 Pearce (2013) 那里学到的东西。

要进行因子分析,数据中必须存在单变量和多变量正态性(Child,2006)

Yong, AG 和 Pearce, S. (2013)。因素分析初学者指南:专注于探索性因素分析。心理学定量方法教程9 (2), 79-94。DOI:10.20982/tqmp.09.2.p079