机器算法验证 - 首先做什么ķk因子分析中的因子最大化？ - 吾爱随笔录

首先做什么ķk因子分析中的因子最大化？

机器算法验证主成分分析因子分析

2022-03-21 08:38:12

在主成分分析中，第一个 $k$ 主要成分是 $k$ 具有最大方差的正交方向。换句话说，第一个主成分被选为方差最大的方向，第二个主成分被选为与第一个主成分正交且方差最大的方向，以此类推。

因子分析是否有类似的解释？例如，我认为第一个 $k$ 因子是最能解释原始相关矩阵的非对角分量的因子（例如，原始相关矩阵和由因子定义的相关矩阵之间的平方误差）。这是真的吗（或者我们可以说类似的话）？

2个回答

PCA 主要是一种数据缩减技术，其目标是获得数据到低维空间的投影。两个等效的目标是迭代地最大化方差或最小化重建误差。这实际上在上一个问题的答案中的一些细节中得到了解决。

相比之下，因子分析主要是一个生成模型 $p$ 维数据向量 $X$ 这么说

X = A S + ϵ

$X = AS + \epsilon$ 在哪里

S

$S$ 是个

q

$q$ 潜在因素的维向量，

A

$A$ 是

p \times k

$p \times k$ 和

k < p

$k < p$ 和

ϵ

$\epsilon$ 是不相关误差的向量。这

A

$A$ 矩阵是因子载荷矩阵。这产生协方差矩阵的特殊参数化为

Σ = A A^{T} + D

$\Sigma = AA^T + D$ 这个模型的问题是它被过度参数化了。如果得到相同的模型

A

$A$ 被替换为

A R

$AR$ 对于任何

k \times k

$k \times k$ 正交矩阵

R

$R$ ，这意味着因素本身不是唯一的。存在解决此问题的各种建议，但没有一个解决方案可以为您提供具有您所要求的解释类型的因素。一种流行的选择是varimax旋转。但是，使用的标准仅确定旋转。跨越的列空间

A

$A$ 不会改变，并且由于这是参数化的一部分，因此它由用于估计的任何方法确定

Σ

$\Sigma$ - 比如说，通过高斯模型中的最大似然。

因此，要回答这个问题，使用因子分析模型不会自动给出选择的因子，因此没有单一的解释 $k$ 第一个因素。您必须指定用于估计的方法（的列空间） $A$ 以及用于选择旋转的方法。如果 $D = \sigma^2 I$ （所有误差具有相同的方差）列空间的 MLE 解 $A$ 是前导跨越的空间 $q$ 主成分向量，可以通过奇异值分解找到。当然，可以选择不旋转并将这些主成分向量报告为因子。

编辑：为了强调我的看法，因子分析模型是协方差矩阵作为等级的模型 $k$ 矩阵加上一个对角矩阵。因此，该模型的目标是最好地解释协方差矩阵上的这种结构的协方差。解释是协方差矩阵上的这种结构与未观察到的 $k$ 维度因素。不幸的是，这些因素不能唯一地恢复，并且如何在一组可能的因素中选择它们与数据的解释没有任何关系。与 PCA 的情况一样，可以预先对数据进行标准化，从而拟合一个试图将相关矩阵解释为等级的模型 $k$ 加上一个对角矩阵。

@RAEGTIN，我相信您认为正确。在提取和先验旋转之后，每个连续因素对协变/相关性的影响越来越小，就像每个连续因素对方差的影响越来越小一样：在这两种情况下，加载矩阵A 的列都按照下降的顺序排列其中平方元素（载荷）的总和。Loading是相关bw因子和变量；因此，可以说第一个因素解释了R矩阵中“整体”平方 r 的最大部分，第二个因素在这里是第二个，依此类推。不过，FA 和 PCA 在通过载荷预测相关性方面的区别如下：FA被“校准”以恢复R仅使用 m 个提取因子（m 个因子 < p 个变量）就可以很好地完成，而 PCA 在通过 m 个分量恢复它时很粗鲁， - 它需要所有 p 个分量来无错误地恢复R。

PS只是补充。在 FA 中，加载值“包含”干净的公共性（负责相关的方差的一部分），而在 PCA 中，加载是变量的公共性和唯一性的混合，因此抓住了可变性。

其它你可能感兴趣的问题

上一篇给定序数逻辑回归模型，您如何预测响应类别？下一篇用于学习统计、练习（带有解决方案）的在线资源？