可以将所有变量的平均值视为 PCA 的粗略形式吗?

机器算法验证 主成分分析 民意调查 假设 意思是
2022-04-08 11:11:42

这个问题是我突然想到的。PCA 是一种减少维度的方法。另一种经常(可能过于频繁)使用的方法是取两个或多个变量的平均值。这对创建在大众媒体上发布的有关各种政治问题的“尺度”或“评级”做了很多工作。维度被天真地“平均”,这个累积的“平均”被描绘成一个神奇的数字总和。

然而,这是否是 PCA 的一个非常粗略的亲戚?如果是这样,它有什么假设?我可以想到以下几点:

  • 球形度是完美的或接近完美的。
  • 所有变量都与所有其他变量完全正交。
  • 变量都完美地相互缩放。

还会有什么?

1个回答

PCA 形成变量的线性组合,对所有变量进行平均也是一种线性组合——即所有权重都等于1/d, 在哪里d是变量的数量。因此,人们可以将这些方法视为概念上相关的。

此外,在某些条件下,平均确实可以称为“PCA 的一个非常粗略的相对”,从某种意义上说,PCA 将导致第一个主成分与所有变量的平均值成正比(或接近它)。这些条件是什么?

球形度是完美的或接近完美的。所有变量都与所有其他变量完全正交。变量都完美地相互缩放。

  • 如果所有变量都“完美缩放”,我们假设它们是中心化的并且标准化为方差等于1. 这意味着协方差矩阵和相关矩阵重合。

  • 请注意,如果所有变量确实如您所建议的那样彼此“完全正交”,则协方差/相关矩阵变为单位矩阵,并且可以选择任何向量来表示其第一个主成分;所有特征值都等于1和 PCA 将是无用的(平均也是如此)。因此,让我们考虑小但非零的成对协方差/相关性。

现在,如果所有成对相关性都等于相同的数字c,即协方差矩阵如下所示:

(1cccc1cccc1cccc1),
那么第一个特征向量将与
(1111),
即第一个PC 将与所有变量的平均值成正比。从这个协方差矩阵的排列不变性来看,这应该是显而易见的。

对于任意数量的变量都是如此,不一定是四个。这也适用于任何值c(0,1), 变量是否接近正交 (c0) 或不。

此外,如果非对角线元素不完全相等,但大小相似,这通常仍然近似正确(如@whuber 在评论中指出的那样)。那么第一台 PC 通常也会接近平均值。对于这种情况的一个很好的真实示例,请参阅说明蟹体测量数据集的这个答案