关于 PCA 的问题:PC 何时独立?为什么 PCA 对缩放敏感?为什么 PC 被限制为正交?

机器算法验证 主成分分析 降维
2022-01-30 01:41:42

我试图理解 PCA 的一些描述(前两个来自维基百科),重点补充说:

只有当数据集是联合正态分布时,才能保证主成分是独立的。

主成分的独立性很重要吗?我如何理解这个描述?

PCA对原始变量 的相对缩放很敏感。

那里的“缩放”是什么意思?不同维度的归一化?

变换被定义为第一个主成分具有最大可能的方差,并且每个后续成分在与前面的成分正交的约束下依次具有最高的方差。

你能解释一下这个限制吗?

1个回答

Q1。主成分是相互正交(不相关)的变量。正交性和统计独立性不是同义词主成分没有什么特别之处;多变量数据分析中的任何变量也是如此。如果数据是多元正态的(这声明每个变量都是单变量正态的不同)并且变量不相关,那么是的,它们是独立的。主要组件的独立性是否重要 - 取决于您将如何使用它们。很多时候,它们的正交性就足够了。

Q2。是的,缩放意味着缩小或拉伸单个变量的方差。变量是数据所在空间的维度。PCA 结果 - 组件 - 对数据云的形状、“椭圆体”的形状很敏感。如果您仅将变量居中,则保持方差不变,这通常称为“基于协方差的 PCA”。如果您还将变量标准化为方差 = 1,这通常称为“基于相关性的 PCA”,它可能与前者有很大不同(参见线程)。此外,相对很少有人对非中心数据进行 PCA:原始数据或仅缩放到单位量级;这种 PCA 的结果与您将数据居中的位置进一步不同(见图

Q3。“约束”是 PCA 的工作方式(参见一个巨大的线程)。想象一下您的数据是 3 维云(3 个变量,n点);原点设置在它的质心(平均值)。PCA 将 component1 绘制为通过原点的轴,在其上最大化的平方投影(坐标)的总和;也就是说,沿分量 1 的方差最大化。定义component1后,可以将其作为维度移除,这意味着数据点被投影到与该组件正交的平面上。剩下的是二维云。然后,您再次应用上述查找最大方差轴的过程 - 现在在这个剩余的 2D 云中。那将是component2。您可以通过将数据点投影到正交线上来从平面中移除绘制的组件 2给它。代表残余一维云的那条线被定义为最后一个组件,即组件 3。您可以看到,在这 3 个“步骤”中的每一个上,分析 a) 找到了当前最大方差的维度p-维空间,b)将数据减少到没有该维度的维度,即p1维空间正交于提到的维度。事实证明,每个主成分都是“最大方差”,并且所有成分都是相互正交的(另请参见参考资料)。

[ PS请注意,“正交”意味着两件事:(1)可变轴作为物理垂直轴;(2) 变量与其数据不相关。使用 PCA 和其他一些多元方法,这两件事是一回事。但是对于其他一些分析(例如判别分析),不相关的提取潜变量并不自动意味着它们的轴在原始空间中是垂直的。]