PCA 中的载荷与特征向量:何时使用一个或另一个?

机器算法验证 主成分分析
2022-01-31 21:48:41

在主成分分析(PCA)中,我们得到特征向量(单位向量)和特征值。现在,让我们将载荷定义为 $$\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}.$$

我知道特征向量只是方向,载荷(如上定义)还包括沿这些方向的方差。但为了更好地理解,我想知道我应该在哪里使用载荷而不是特征向量?一个例子将是完美的!

我通常只看到人们使用特征向量,但他们偶尔会使用载荷(如上定义),然后我觉得我并不真正理解其中的区别。

4个回答

在 PCA 中,您将协方差(或相关)矩阵拆分为比例部分(特征值)和方向部分(特征向量)。然后,您可以为特征向量赋予比例:loadings因此,载荷在量级上变得与观察到的变量之间的协方差/相关性具有可比性,因为从变量的协变中提取的内容现在返回 - 以变量和主成分之间的协变的形式。实际上,载荷原始变量和单位尺度分量之间的协方差/相关性这个答案在几何上显示了负载是什么,以及将组件与 PCA 或因子分析中的变量相关联的系数是什么。

装载量

  1. 帮助您解释主成分或因素;因为它们是线性组合权重(系数),单位尺度的组件或因子借此定义或“加载”变量

    (特征向量只是正交变换或投影的系数,它的值内没有“负载”。“负载”是(量的信息)方差,幅度。提取PC来解释变量的方差。特征值是(=解释)PC的方差。当我们将特征向量乘以特征值的平方根时,我们“加载”裸系数乘以方差量。因此,我们使系数成为关联的度量,co-变化性。)

  2. 加载有时会在之后“旋转”(例如 varimax)以促进可解释性(另见);

  3. 它是“恢复”原始协方差/相关矩阵的加载(另请参见讨论 PCA 和 FA 在这方面的细微差别的线程);

  4. 在 PCA 中,您可以从特征向量和载荷中计算分量的值,而在因子分析中,您可以从载荷中计算因子得分

  5. 而且,最重要的是,加载矩阵是信息丰富的:它的垂直平方和是特征值、分量的方差,它的水平平方和是变量方差的一部分,由分量“解释”。

  6. 重新调整或标准化的负载是负载除以变量的 st。偏差; 这是相关性。(如果您的 PCA 是基于相关性的 PCA,则加载等于重新调整后的 PCA,因为基于相关性的 PCA 是标准化变量的 PCA。)重新调整后的加载平方具有 pr 贡献的含义。组成一个变量;如果它很高(接近 1),则该变量仅由该组件很好地定义。

在 PCA 和 FA 中完成的计算示例供您查看

特征向量是单位尺度的载荷;它们是变量正交变换(旋转)到主成分或倒回的系数(余弦)。因此很容易用它们计算组件的值(未标准化)。除此之外,它们的使用是有限的。特征向量值平方的含义是变量对pr的贡献。零件; 如果它很高(接近 1),则该分量仅由该变量很好地定义。

尽管特征向量载荷只是对表示双标图上数据列(变量)的相同点的坐标进行归一化的两种不同方法,但混合这两个术语并不是一个好主意。这个答案解释了原因。另请参阅

关于载荷、系数和特征向量似乎存在很多混淆。词载荷来自因子分析,它是指数据矩阵回归到因子的系数。它们不是定义因子的系数。参见例如 Mardia、Bibby 和 Kent 或其他多元统计教科书。

近年来,负荷一词已被用于表示 PC 系数。在这里,它似乎用于表示系数乘以矩阵特征值的 sqrt。这些不是 PCA 中常用的数量。主成分定义为以单位范数系数加权的变量之和。通过这种方式,PC 的范数等于相应的特征值,而相应的特征值又等于组件解释的方差。

在因子分析中,因子需要具有单位范数。但是 FA 和 PCA 完全不同。旋转 PC 的系数很少进行,因为它破坏了组件的最优性。

在 FA 中,这些因素不是唯一定义的,可以用不同的方式进行估计。重要的量是载荷(真实量)和用于研究协方差矩阵结构的公共性。应该使用 PCA 或 PLS 来估计组件。

我对这些名字有点困惑,我在《大气科学中的统计方法》一书中搜索,它给了我PCA各种术语的总结,这里是书中的截图,希望对你有所帮助。

在此处输入图像描述

在此处输入图像描述

在这个问题上似乎有些混乱,所以我将提供一些观察结果和一个指针,指出可以在文献中找到一个很好的答案。

首先,PCA 和因子分析 (FA)相关的。一般来说,主成分在定义上是正交的,而因子(FA 中的类似实体)则不是。简而言之,主成分以任意但不一定有用的方式跨越因子空间,因为它们来自数据的纯特征分析。另一方面,因素代表现实世界的实体,这些实体只是巧合正交(即不相关或独立)。

假设我们从l个主题中的每一个中进行s观察。这些可以排列成具有s行和l列的数据矩阵D。D可以分解为一个得分矩阵S和一个负载矩阵L使得D = SLS将有s行,L将有l列,每个的第二维是因子n的数量。因子分析的目的是分解D以揭示潜在分数和因素的方式。L中的载荷告诉我们构成D中观察值的每个分数的比例。

在 PCA 中,L将D的相关或协方差矩阵的特征向量作为其列。这些通常按相应特征值的降序排列。n的值- 即要在分析中保留的重要主成分的数量,因此L的行数- 通常通过使用特征值的碎石图或许多其他方法之一来确定文献。PCA中S的列本身构成了n 个抽象主成分。n的值是数据集的基本维度。

因子分析的目的是通过使用变换矩阵T将抽象成分转化为有意义的因子,使得D = STT -1 L( ST ) 是转换后的得分矩阵, ( T -1 L ) 是转换后的负载矩阵。

上述解释大致遵循 Edmund R. Malinowski 在他出色的化学因子分析中的符号。我强烈推荐开篇章节作为对该主题的介绍。