首先做什么ķk因子分析中的因子最大化?

机器算法验证 主成分分析 因子分析
2022-03-21 08:38:12

在主成分分析中,第一个k主要成分是k 具有最大方差的正交方向。换句话说,第一个主成分被选为方差最大的方向,第二个主成分被选为与第一个主成分正交且方差最大的方向,以此类推。

因子分析是否有类似的解释?例如,我认为第一个k因子是最能解释原始相关矩阵的对角分量的因子(例如,原始相关矩阵和由因子定义的相关矩阵之间的平方误差)。这是真的吗(或者我们可以说类似的话)?

2个回答

PCA 主要是一种数据缩减技术,其目标是获得数据到低维空间的投影。两个等效的目标是迭代地最大化方差或最小化重建误差。这实际上在上一个问题的答案中的一些细节中得到了解决。

相比之下,因子分析主要是一个生成模型p维数据向量X这么说

X=AS+ϵ
在哪里S是个q潜在因素的维向量,Ap×kk<pϵ是不相关误差的向量。A矩阵是因子载荷矩阵。这产生协方差矩阵的特殊参数化为
Σ=AAT+D
这个模型的问题是它被过度参数化了。如果得到相同的模型A被替换为AR对于任何k×k正交矩阵R,这意味着因素本身不是唯一的。存在解决此问题的各种建议,但没有一个解决方案可以为您提供具有您所要求的解释类型的因素。一种流行的选择是varimax旋转。但是,使用的标准仅确定旋转。跨越的列空间A不会改变,并且由于这是参数化的一部分,因此它由用于估计的任何方法确定Σ- 比如说,通过高斯模型中的最大似然。

因此,要回答这个问题,使用因子分析模型不会自动给出选择的因子,因此没有单一的解释k第一个因素。您必须指定用于估计的方法(的列空间)A以及用于选择旋转的方法。如果D=σ2I(所有误差具有相同的方差)列空间的 MLE 解A是前导跨越的空间q主成分向量,可以通过奇异值分解找到。当然,可以选择不旋转并将这些主成分向量报告为因子。

编辑:为了强调我的看法,因子分析模型是协方差矩阵作为等级的模型k矩阵加上一个对角矩阵。因此,该模型的目标是最好地解释方差矩阵上的这种结构的协方差。解释是协方差矩阵上的这种结构与未观察到的k维度因素。不幸的是,这些因素不能唯一地恢复,并且如何在一组可能的因素中选择它们与数据的解释没有任何关系。与 PCA 的情况一样,可以预先对数据进行标准化,从而拟合一个试图将相关矩阵解释为等级的模型k加上一个对角矩阵。

@RAEGTIN,我相信您认为正确。在提取和先验旋转之后,每个连续因素对协变/相关性的影响越来越小,就像每个连续因素对方差的影响越来越小一样:在这两种情况下,加载矩阵A 的列都按照下降的顺序排列其中平方元素(载荷)的总和。Loading是相关bw因子和变量;因此,可以说第一个因素解释了R矩阵中“整体”平方 r 的最大部分,第二个因素在这里是第二个,依此类推。不过,FA 和 PCA 在通过载荷预测相关性方面的区别如下:FA被“校准”以恢复R仅使用 m 个提取因子(m 个因子 < p 个变量)就可以很好地完成,而 PCA 在通过 m 个分量恢复它时很粗鲁, - 它需要所有 p 个分量来无错误地恢复R。

PS只是补充。在 FA 中,加载值“包含”干净的公共性(负责相关的方差的一部分),而在 PCA 中,加载是变量的公共性和唯一性的混合,因此抓住了可变性。