为什么我的第一台 PC 解释的方差量如此接近平均成对相关性?

机器算法验证 相关性 主成分分析 数理统计 特征值
2022-03-09 09:58:02

第一主成分与相关矩阵中的平均相关之间的关系是什么?

例如,在一个经验应用中,我观察到平均相关性与第一个主成分(第一个特征值)的方差与总方差(所有特征值的总和)的比率几乎相同。

有数学关系吗?

下面是实证结果的图表。其中相关性是在 15 天滚动窗口内计算的 DAX 股票指数成分收益之间的平均相关性,解释方差是由第一个主成分解释的方差份额,也是在 15 天滚动窗口内计算的。

这可以用 CAPM 等常见风险因素模型来解释吗?

在此处输入图像描述

2个回答

我认为这里发生的是所有变量都彼此正相关。在这种情况下,第一台 PC 通常非常接近所有变量的平均值。如果所有变量都与完全相同的相关系数呈正相关,那么第一个 PC与所有变量的平均值完全成正比,正如我在这里解释的那样:平均所有变量可以被视为 PCA 的粗略形式吗?c

在这种简单的情况下,实际上可以从数学上推导出您所询问的关系。考虑大小的相关矩阵,如下所示:它的第一个特征向量等于,它对应于所有变量的 [scaled] 平均值。它的特征值为如果当然由所有对角元素的总和给出,则所有特征值的总和,即所以第一个 PC 的解释方差的比例等于n×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

所以在这个最简单的情况下,第一个 PC 解释方差的比例与平均相关性是 100% 相关的,并且对于大的大约等于它。这正是我们在你的情节中看到的。n

我希望对于大型矩阵,即使相关性不完全相同,这个结果也将大致成立。


Update. Using the figure posted in the question, one can even try to estimate the n by noticing that n=(1c)/(R2c). If we take c=0.5 and R2c=0.02, then we get n=25. The OP said that the data was a "DAX stock index"; googling it, we see that it apparently consists of 30 variables. Not a bad match.

我相信平均相关性和第一台 PC 的特征值之间的关系存在但不是唯一的。我不是能够推导出它的数学家,但我至少可以展示一个人的直觉或思想可能从何而来的起点。

如果您将标准化变量绘制为欧几里得空间中的向量(这是轴是观测值的缩减空间),则相关性是两个向量之间的余弦

在此处输入图像描述

并且因为向量都是单位长度(由于标准化),余弦是向量在彼此上的投影(如左图所示,带有三个变量)。第一个 PC 是这个空间中的这样一条线,它使投影到其上的平方和的总和最大化,a,称为负荷;这个和是第一个特征值。

因此,当您建立左侧三个投影的均值与右侧三个平方投影的总和(或均值)之间的关系时,您就回答了有关平均相关性和特征值之间关系的问题。