相关性或协方差的 PCA:相关性的 PCA 是否有意义?

机器算法验证 主成分分析 因子分析
2022-02-06 22:00:44

在主成分分析 (PCA) 中,可以选择协方差矩阵或相关矩阵来找到成分(从它们各自的特征向量中)。这些给出不同的结果(PC 负载和分数),因为两个矩阵之间的特征向量不相等。我的理解是,这是由于原始数据向量X及其标准化Z不能通过正交变换关联。在数学上,相似矩阵(即通过正交变换相关)具有相同的特征值,但不一定相同的特征向量。

这在我心中提出了一些困难:

  1. 如果您可以为同一个起始数据集获得两个不同的答案,并且都试图实现相同的目标(=寻找最大方差的方向),那么 PCA 是否真的有意义?

  2. 使用相关矩阵方法时,在计算 PC 之前,每个变量都通过其各自的标准偏差进行标准化(缩放)。那么,如果数据已经事先进行了不同的缩放/压缩,那么找到最大方差的方向仍然有意义吗?我知道基于相关性的 PCA 非常方便(标准化变量是无量纲的,因此可以将它们的线性组合相加;其他优点也是基于实用主义),但它是否正确?

在我看来,基于协方差的 PCA 是唯一真正正确的(即使变量的方差差异很大),并且每当无法使用此版本时,也不应使用基于相关性的 PCA。

我知道有这个线程:PCA on correlation or covariance? - 但它似乎只专注于找到一个务实的解决方案,这可能是也可能不是代数正确的解决方案。

3个回答

我希望这些对您两个问题的回答能够平息您的担忧:

  1. 相关矩阵标准化(即不仅居中而且还重新缩放)数据的协方差矩阵;也就是说,另一个不同数据集的协方差矩阵(好像) 。所以这是很自然的,结果不同不应该打扰你。
  2. 是的,用标准化数据找到最大方差的方向是有意义的——它们是——可以说——“相关性”的方向,而不是“协变量”的方向;也就是说,在取消了原始变量的不等方差对多元数据云形状的影响之后。

@whuber添加的下一个文字和图片(我感谢他。另外,请参阅下面的评论)

这是一个二维示例,说明为什么定位标准化数据的主轴仍然有意义(如右图所示)。请注意,在右侧图中,即使沿坐标轴的方差现在完全相等(等于 1.0),云仍然具有“形状”。类似地,在更高维度上,标准化点云将具有非球形形状,即使沿所有轴的方差完全相等(为 1.0)。主轴(及其相应的特征值)描述了该形状。理解这一点的另一种方法是注意,在标准化变量时进行的所有重新缩放和移动仅发生在坐标轴的方向上,而不发生在主方向本身上。

数字

这里发生的事情在几何上是如此直观和清晰,以至于将其描述为“黑盒操作”将是一种延伸:相反,标准化和 PCA 是我们对数据进行的一些最基本和常规的事情,以便了解他们。


继续@ttnphns

什么时候更愿意对相关性(即 z 标准化变量)而不是协方差(即中心变量)进行 PCA(或因子分析或其他类似类型的分析)?

  1. 当变量是不同的测量单位时。这很清楚。
  2. 当人们希望分析仅反映线性关联时。Pearson r不仅是单尺度(方差=1)变量之间的协方差;它突然成为线性关系强度的量度,而通常的协方差系数可以接受线性和单调关系。
  3. 当人们希望关联反映相对的共同偏差(从平均值)而不是原始的共同偏差时。相关性基于分布及其分布,而协方差基于原始测量尺度。如果我要对精神病医生在一些由李克特类型项目组成的临床问卷中评估的患者的精神病理学特征进行因子分析,我更喜欢协方差。因为预计专业人士不会在心理上扭曲评级量表。另一方面,如果我要通过同一份问卷来分析患者的自我描述,我可能会选择相关性。因为外行人的评价预计是相对的“其他人”、“多数”、“允许偏差”放大镜可以“缩小”或“拉伸”一个人的评分标准。

从实际的角度说 - 这里可能不受欢迎 - 如果您有不同尺度的数据测量,那么使用相关性(如果您是化学计量学家,则使用“UV 缩放”),但如果变量在相同的尺度上并且它们的大小很重要(例如光谱数据),然后协方差(仅以数据为中心)更有意义。PCA 是一种与尺度相关的方法,对数转换也有助于处理高度偏斜的数据。

根据我 20 年化学计量学实际应用的拙见,您必须进行一些实验,看看哪种方法最适合您的数据类型。归根结底,您需要能够重现您的结果并尝试证明您的结论的可预测性。您如何到达那里通常需要反复试验,但重要的是您所做的事情是记录在案且可重现的。

我没有时间对我描述的实验的详细和技术方面进行更全面的描述,而对措辞(推荐、性能、最佳)的澄清将再次使我们远离真正的问题,即输入数据的类型PCA 可以(不)/应该(不)服用。PCA 通过采用数字(变量值)的线性组合来运行。当然,在数学上,可以添加任意两个(实数或复数)数。但是,如果它们在 PCA 转换之前被重新缩放,那么它们的线性组合(以及因此最大化的过程)是否仍然有意义? 如果每个变量xi有相同的方差s2,那么显然是的,因为(x1/s1)+(x2/s2)=(x1+x2)/s仍然与数据的物理叠加成比例和可比性x1+x2本身。但如果s1s2,则标准化量的线性组合将输入变量的数据扭曲为不同的度。那么,最大化它们的线性组合的方差似乎没有什么意义。在这种情况下,PCA 为不同的数据集提供了解决方案,其中每个变量的缩放比例不同。如果您随后取消标准化(使用 corr_PCA 时),那么这可能是可以且必要的;但是,如果您只是按原样采用原始 corr_PCA 解决方案并停在那里,您将获得一个数学解决方案,但与物理数据无关。由于之后的非标准化似乎至少是强制性的(即,通过反向标准偏差“拉伸”轴),因此 cov_PCA 本来可以用于开始。如果你现在还在阅读,我印象深刻!现在,我通过引用 Jolliffe 的书 p. 来结束。42,这是我关心的部分:“但是,不能忘记,相关矩阵 PC 在根据原始变量重新表示时,仍然是 x 的线性函数,它使标准化变量的方差最大化,而不是原始变量的方差。” 如果您认为我错误地解释了这一点或其含义,那么这段摘录可能是进一步讨论的一个很好的焦点。