解释了 PCA 和方差比例

机器算法验证 回归 主成分分析 线性模型 降维
2022-02-06 14:19:57

一般来说,在像 PCA 这样的分析中,方差的分数由第一主成分解释是什么意思?有人可以直观地解释这一点,而且还可以根据主成分分析(PCA)给出“方差解释”的精确数学定义吗?x

对于简单的线性回归,最佳拟合线的 r 平方总是被描述为解释的方差的比例,但我也不知道该怎么做。这里的方差比例只是点与最佳拟合线的偏差的延伸吗?

4个回答

在 PCA 的情况下,“方差”是指总方差或多变量变异性总体变异性总变异性下面是一些 3 个变量的协方差矩阵。它们的方差在对角线上,三个值的总和 (3.448) 是整体变异性。

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

现在,PCA 用称为主成分的新变量替换原始变量,它们是正交的(即它们具有零协变量)并且具有按降序排列的方差(称为特征值)。因此,从上述数据中提取的主成分之间的协方差矩阵为:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

请注意,对角线和仍然是 3.448,这表示所有 3 个分量都解释了所有多变量变异性。第一个主成分占或“解释”整体变异性的 1.651/3.448 = 47.9%;第二个解释 1.220/3.448 = 35.4%;第三个解释了 0.577/3.448 = 16.7%。

那么,当他们说“ PCA 使方差最大化”或“ PCA 解释最大方差”时,它们是什么意思?当然,这并不是说它在三个值中找到了最大的方差1.343730519 .619205620 1.485549631,不。PCA 在数据空间中找到总体方差中方差最大的维度(方向) 。最大的差异将是然后它从剩余的总体方差中找到与第一个方差正交的第二大方差的维度。第二维将是方差。等等。最后剩下的维度是方差。另请参阅此处的“Pt3”和此处的最佳答案1.343730519+.619205620+1.485549631 = 3.4481.6513542853.448-1.6513542851.220288343.576843142更详细地解释它是如何完成的。

在数学上,PCA 是通过称为 eigen-decomposition 或 svd-decomposition 的线性代数函数执行的。这些函数将一次返回所有特征值1.651354285 1.220288343 .576843142(和相应的特征向量)(参见参见)。

@ttnphns 提供了一个很好的答案,也许我可以补充几点。首先,我想指出有一个关于 CV 的相关问题,答案非常有力——你肯定想看看。在下文中,我将参考该答案中显示的图表。

所有三个图都显示相同的数据。请注意,数据在垂直和水平方向上都存在可变性,但我们可以将大部分可变性视为实际上是对角线的。在第三幅图中,那条黑色长对角线是第一个特征向量(或第一个主成分),以及该主成分的长度(数据沿该线的分布——实际上不是线本身的长度,即只是在图上绘制)是第一个特征值--这是第一主成分所解释的方差量。如果您将该长度与第二个主成分的长度(即从该对角线正交的数据扩展的宽度)相加,然后将任一特征值除以该总数,您将得到百分比由相应的主成分解释的方差。

另一方面,要了解回归中的方差百分比,您可以查看顶部图。在这种情况下,红线是回归线,或模型中的一组预测值。解释的方差可以理解为回归线的垂直扩展(即从线上的最低点到线上的最高点)与数据的垂直扩展(即从最低数据点开始)的比值到最高数据点)。当然,这只是一个松散的想法,因为从字面上看,这些是范围,而不是方差,但这应该可以帮助您理解重点。

请务必阅读问题。而且,虽然我提到了最佳答案,但给出的几个答案都非常好。值得您花时间阅读它们。

原始问题有一个非常简单、直接和精确的数学答案。

第一个 PC 是原始变量的线性组合,当将原始变量预测为线性组合的回归函数时统计量的总和最大化。Y1Y2YpRi2

准确地说,第一台 PC 中的系数,给出了,其中最大值取自所有可能的线性组合。a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

从这个意义上说,您可以将第一台 PC 解释为“解释的方差”的最大化器,或者更准确地说,是“解释的总方差”的最大化器。

它是“a”最大化器而不是“the”最大化器,因为任何比例系数,对于,将给出相同的最大值。这个结果的一个很好的副产品是,除了作为提出“a”最大化器的设备之外,单位长度约束是不必要的。bi=c×aic0

有关原始文献和扩展的参考,请参阅

Westfall, PH, Arias, AL 和 Fulton, LV (2017)。使用相关性教授主成分,多元行为研究,52, 648-660。

视为随机变量由两个新的随机变量解释。我们为什么要这样做?也许很复杂,但不那么复杂。的方差部分的方差部分解释将此应用于线性回归很简单。认为,然后中的方差部分Y=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eY由回归线b0+b1X

我们使用“方差比例”术语,因为我们想量化有多少回归线对预测(或建模)有用。Y