机器算法验证 - 可以将所有变量的平均值视为 PCA 的粗略形式吗？ - 吾爱随笔录

机器算法验证主成分分析民意调查假设意思是

2022-04-08 11:11:42

这个问题是我突然想到的。PCA 是一种减少维度的方法。另一种经常（可能过于频繁）使用的方法是取两个或多个变量的平均值。这对创建在大众媒体上发布的有关各种政治问题的“尺度”或“评级”做了很多工作。维度被天真地“平均”，这个累积的“平均”被描绘成一个神奇的数字总和。

然而，这是否是 PCA 的一个非常粗略的亲戚？如果是这样，它有什么假设？我可以想到以下几点：

还会有什么？

1个回答

PCA 形成变量的线性组合，对所有变量进行平均也是一种线性组合——即所有权重都等于 $1/d$ ，在哪里 $d$ 是变量的数量。因此，人们可以将这些方法视为概念上相关的。

此外，在某些条件下，平均确实可以称为“PCA 的一个非常粗略的相对”，从某种意义上说，PCA 将导致第一个主成分与所有变量的平均值成正比（或接近它）。这些条件是什么？

球形度是完美的或接近完美的。所有变量都与所有其他变量完全正交。变量都完美地相互缩放。

如果所有变量都“完美缩放”，我们假设它们是中心化的并且标准化为方差等于 $1$ . 这意味着协方差矩阵和相关矩阵重合。
请注意，如果所有变量确实如您所建议的那样彼此“完全正交”，则协方差/相关矩阵变为单位矩阵，并且可以选择任何向量来表示其第一个主成分；所有特征值都等于 $1$ 和 PCA 将是无用的（平均也是如此）。因此，让我们考虑小但非零的成对协方差/相关性。

现在，如果所有成对相关性都等于相同的数字 $c$ ，即协方差矩阵如下所示：

(\begin{matrix} 1 & c & c & c \\ c & 1 & c & c \\ c & c & 1 & c \\ c & c & c & 1 \end{matrix}),

$\left(\begin{array}{}1&c&c&c\\c&1&c&c\\c&c&1&c\\c&c&c&1\end{array} \right),$ 那么第一个特征向量将与

(\begin{matrix} 1 \\ 1 \\ 1 \\ 1 \end{matrix}),

$\left(\begin{array}{}1\\1\\1\\1 \end{array}\right),$ 即第一个PC 将与所有变量的平均值成正比。从这个协方差矩阵的排列不变性来看，这应该是显而易见的。

对于任意数量的变量都是如此，不一定是四个。这也适用于任何值 $c \in (0,1)$ , 变量是否接近正交 ( $c\approx 0$ ）或不。

此外，如果非对角线元素不完全相等，但大小相似，这通常仍然近似正确（如@whuber 在评论中指出的那样）。那么第一台 PC 通常也会接近平均值。对于这种情况的一个很好的真实示例，请参阅说明蟹体测量数据集的这个答案。

其它你可能感兴趣的问题