这个问题是我突然想到的。PCA 是一种减少维度的方法。另一种经常(可能过于频繁)使用的方法是取两个或多个变量的平均值。这对创建在大众媒体上发布的有关各种政治问题的“尺度”或“评级”做了很多工作。维度被天真地“平均”,这个累积的“平均”被描绘成一个神奇的数字总和。
然而,这是否是 PCA 的一个非常粗略的亲戚?如果是这样,它有什么假设?我可以想到以下几点:
- 球形度是完美的或接近完美的。
- 所有变量都与所有其他变量完全正交。
- 变量都完美地相互缩放。
还会有什么?
这个问题是我突然想到的。PCA 是一种减少维度的方法。另一种经常(可能过于频繁)使用的方法是取两个或多个变量的平均值。这对创建在大众媒体上发布的有关各种政治问题的“尺度”或“评级”做了很多工作。维度被天真地“平均”,这个累积的“平均”被描绘成一个神奇的数字总和。
然而,这是否是 PCA 的一个非常粗略的亲戚?如果是这样,它有什么假设?我可以想到以下几点:
还会有什么?
PCA 形成变量的线性组合,对所有变量进行平均也是一种线性组合——即所有权重都等于, 在哪里是变量的数量。因此,人们可以将这些方法视为概念上相关的。
此外,在某些条件下,平均确实可以称为“PCA 的一个非常粗略的相对”,从某种意义上说,PCA 将导致第一个主成分与所有变量的平均值成正比(或接近它)。这些条件是什么?
球形度是完美的或接近完美的。所有变量都与所有其他变量完全正交。变量都完美地相互缩放。
如果所有变量都“完美缩放”,我们假设它们是中心化的并且标准化为方差等于. 这意味着协方差矩阵和相关矩阵重合。
请注意,如果所有变量确实如您所建议的那样彼此“完全正交”,则协方差/相关矩阵变为单位矩阵,并且可以选择任何向量来表示其第一个主成分;所有特征值都等于和 PCA 将是无用的(平均也是如此)。因此,让我们考虑小但非零的成对协方差/相关性。
现在,如果所有成对相关性都等于相同的数字,即协方差矩阵如下所示:
对于任意数量的变量都是如此,不一定是四个。这也适用于任何值, 变量是否接近正交 () 或不。
此外,如果非对角线元素不完全相等,但大小相似,这通常仍然近似正确(如@whuber 在评论中指出的那样)。那么第一台 PC 通常也会接近平均值。对于这种情况的一个很好的真实示例,请参阅说明蟹体测量数据集的这个答案。