因子分析的假设是什么?

机器算法验证 相关性 因子分析 假设 降维
2022-01-31 16:37:50

我想检查我是否真的理解 [经典,线性]因子分析(FA),尤其是在 FA 之前(也可能在之后)做出的假设。

一些数据最初应该是相关的,并且它们之间可能存在线性关系。进行因子分析后,数据呈正态分布(每对呈双变量分布),因子之间没有相关性(常见的和特殊的),一个因子的变量与其他因子的变量之间没有相关性。

这是正确的吗?

3个回答

线性 FA 的输入数据假设(我不是在这里谈论FA模型的内部假设/属性或检查结果的拟合质量)。

  1. 比例(区间或比率)输入变量这意味着这些项目要么是连续测量,要么被概念化为连续的,而在离散的定量尺度上测量。线性 FA(读取)中没有序数数据。还应避免使用二进制数据(参见thisthis)。线性 FA 假设潜在的共同因素和独特因素是连续的因此,它们加载的观察变量也应该是连续的。
  2. 相关性是线性的线性 FA 可以基于任何SSCP 类型的关联矩阵执行:Pearson 相关、协方差、余弦等(尽管某些方法/实现可能仅限于 Pearson 相关)。请注意,这些都是线性代数产品。尽管协方差系数的大小不仅反映了相关的线性关系,但线性 FA 中的建模本质上是线性的,即使使用协方差也是如此:变量是因素的线性组合因此线性隐含在结果关联中。如果您看到/认为非线性关联占上风 - 不要进行线性 FA 或尝试通过数据的一些转换首先将它们线性化。并且不要将线性 FA 基于 Spearman 或 Kendall 相关性(那里的第 4 部分)。
  3. 没有异常值- 与任何非稳健方法一样。Pearson 相关和类似的 SSCP 类型关联对异常值很敏感,所以要小心。
  4. 存在相当高的相关性FA 是相关性分析,当所有或几乎所有相关性都很弱时,它有什么用?- 没用。然而,什么是“相当高的相关性”取决于研究领域。还有一个有趣且多变的问题,是否应该接受非常高的相关性(例如,它们对 PCA 的影响在此处讨论)。为了统计检验数据是否不相关,可以使用Bartlett 的球形检验。
  5. 偏相关性较弱,因子可以足够定义FA 假设因素比仅仅加载成对的相关项目更普遍。事实上,甚至有人建议不要在探索性 FA 中提取加载少于 3 个项目的因子;在验证性 FA 中,只有 3+ 是保证识别的结构。一个称为海伍德案的提取技术问题,作为其背后的原因之一,是因素上的项目太少。凯撒-迈耶-奥尔金 ( KMO)“抽样充分性度量”为您估计数据中的部分相关性相对于完全相关性有多弱;它可以为每个项目和整个相关矩阵计算。公因子分析模型假设成对偏相关足够小,无需担心和建模,并且它们都属于个体相关系数的总体噪声,我们认为这些噪声与它们的样本噪声没有任何不同(参见 参考资料)。并读
  6. 没有多重共线性FA 模型假设所有项目都具有独特的因素,并且这些因素是正交的。因此 2 个项目必须定义一个平面,3 个项目 - 一个 3d 空间等:p相关向量必须跨越 p-dim 空间以容纳它们的 p 个相互垂直的唯一分量。因此,由于理论上的原因,没有奇点1(因此自动n observations > p variables,不用说;和更好n>>p)。但是,不允许完全的多重共线性;但它可能会导致大多数 FA 算法出现计算问题(另请参阅)。
  7. 分布一般来说,线性 FA 不需要输入数据的正态性。适度偏斜的分布是可以接受的。双峰不是禁忌症。确实为模型中的独特因素假设了正态性(它们作为回归误差) - 但不适用于公共因素和输入数据(另见)。尽管如此,通过某些提取方法(即最大似然)和通过执行一些渐近测试,可能需要数据的多元正态性作为附加假设。

1FA 的ULS/minres方法可以处理奇异甚至非 psd 相关矩阵,但对我来说,严格从理论上讲,这样的分析是可疑的。

很多时候,因子分析本身是在没有任何统计测试的情况下进行的。它比回归、结构方程建模等方法更具主观性和解释性。通常是带有假设的推理测试:为了使p值和置信区间正确,必须满足这些假设。

现在,如果将选择因子个数的方法设置为最大似然法,那么就有一个假设:输入到因子分析中的变量将具有正态分布。

输入变量将具有非零相关性是一种假设,因为如果它不成立,因子分析结果将(可能)无用:没有因子将作为一组输入变量背后的潜在变量出现。

至于“因素(共同和具体)之间没有相关性,并且来自一个因素的变量与来自其他因素的变量之间没有相关性”,这些并不是因素分析师所做的普遍假设,尽管有时这两种情况(或近似值)它)可能是可取的。后者,当它成立时,它被称为“简单结构”。

还有另一个条件有时被视为“假设”:输入变量之间的零阶(普通)相关性不会被大的偏相关性所淹没。简而言之,这意味着对于某些配对来说,关系应该是强的,而对于另一些配对来说是弱的;否则,结果将是“浑浊的”。这与简单结构的可取性有关,它实际上可以使用 Kaiser-Meyer-Olkin 统计量或 KMO 进行评估(尽管没有正式“测试”)。接近 0.8 或 0.9 的 KMO 值通常被认为非常有希望获得信息性因子分析结果,而接近 0.5 或 0.6 的 KMO 则不太有希望,低于 0.5 的 KMO 值可能会促使分析师重新考虑他/她的策略。

探索性因素分析的基本假设是:
• 测量的区间或比率水平
• 随机抽样
• 观察变量之间的关系是线性
的 • 正态分布(每个观察变量)
• 双变量正态分布(每对观察变量)
• 多元正态性
以上来自SAS文件