我想检查我是否真的理解 [经典,线性]因子分析(FA),尤其是在 FA 之前(也可能在之后)做出的假设。
一些数据最初应该是相关的,并且它们之间可能存在线性关系。进行因子分析后,数据呈正态分布(每对呈双变量分布),因子之间没有相关性(常见的和特殊的),一个因子的变量与其他因子的变量之间没有相关性。
这是正确的吗?
我想检查我是否真的理解 [经典,线性]因子分析(FA),尤其是在 FA 之前(也可能在之后)做出的假设。
一些数据最初应该是相关的,并且它们之间可能存在线性关系。进行因子分析后,数据呈正态分布(每对呈双变量分布),因子之间没有相关性(常见的和特殊的),一个因子的变量与其他因子的变量之间没有相关性。
这是正确的吗?
线性 FA 的输入数据假设(我不是在这里谈论FA模型的内部假设/属性或检查结果的拟合质量)。
p
相关向量必须跨越 p-dim 空间以容纳它们的 p 个相互垂直的唯一分量。因此,由于理论上的原因,没有奇点(因此自动n observations > p variables
,不用说;和更好n>>p
)。但是,不允许完全的多重共线性;但它可能会导致大多数 FA 算法出现计算问题(另请参阅)。FA 的ULS/minres方法可以处理奇异甚至非 psd 相关矩阵,但对我来说,严格从理论上讲,这样的分析是可疑的。
很多时候,因子分析本身是在没有任何统计测试的情况下进行的。它比回归、结构方程建模等方法更具主观性和解释性。通常是带有假设的推理测试:为了使p值和置信区间正确,必须满足这些假设。
现在,如果将选择因子个数的方法设置为最大似然法,那么就有一个假设:输入到因子分析中的变量将具有正态分布。
输入变量将具有非零相关性是一种假设,因为如果它不成立,因子分析结果将(可能)无用:没有因子将作为一组输入变量背后的潜在变量出现。
至于“因素(共同和具体)之间没有相关性,并且来自一个因素的变量与来自其他因素的变量之间没有相关性”,这些并不是因素分析师所做的普遍假设,尽管有时这两种情况(或近似值)它)可能是可取的。后者,当它成立时,它被称为“简单结构”。
还有另一个条件有时被视为“假设”:输入变量之间的零阶(普通)相关性不会被大的偏相关性所淹没。简而言之,这意味着对于某些配对来说,关系应该是强的,而对于另一些配对来说是弱的;否则,结果将是“浑浊的”。这与简单结构的可取性有关,它实际上可以使用 Kaiser-Meyer-Olkin 统计量或 KMO 进行评估(尽管没有正式“测试”)。接近 0.8 或 0.9 的 KMO 值通常被认为非常有希望获得信息性因子分析结果,而接近 0.5 或 0.6 的 KMO 则不太有希望,低于 0.5 的 KMO 值可能会促使分析师重新考虑他/她的策略。
探索性因素分析的基本假设是:
• 测量的区间或比率水平
• 随机抽样
• 观察变量之间的关系是线性
的 • 正态分布(每个观察变量)
• 双变量正态分布(每对观察变量)
• 多元正态性
以上来自SAS文件