第一主成分与相关矩阵中的平均相关之间的关系是什么?
例如,在一个经验应用中,我观察到平均相关性与第一个主成分(第一个特征值)的方差与总方差(所有特征值的总和)的比率几乎相同。
有数学关系吗?
下面是实证结果的图表。其中相关性是在 15 天滚动窗口内计算的 DAX 股票指数成分收益之间的平均相关性,解释方差是由第一个主成分解释的方差份额,也是在 15 天滚动窗口内计算的。
这可以用 CAPM 等常见风险因素模型来解释吗?
第一主成分与相关矩阵中的平均相关之间的关系是什么?
例如,在一个经验应用中,我观察到平均相关性与第一个主成分(第一个特征值)的方差与总方差(所有特征值的总和)的比率几乎相同。
有数学关系吗?
下面是实证结果的图表。其中相关性是在 15 天滚动窗口内计算的 DAX 股票指数成分收益之间的平均相关性,解释方差是由第一个主成分解释的方差份额,也是在 15 天滚动窗口内计算的。
这可以用 CAPM 等常见风险因素模型来解释吗?
我认为这里发生的是所有变量都彼此正相关。在这种情况下,第一台 PC 通常非常接近所有变量的平均值。如果所有变量都与完全相同的相关系数呈正相关,那么第一个 PC与所有变量的平均值完全成正比,正如我在这里解释的那样:平均所有变量可以被视为 PCA 的粗略形式吗?
在这种简单的情况下,实际上可以从数学上推导出您所询问的关系。考虑大小的相关矩阵,如下所示:它的第一个特征向量等于,它对应于所有变量的 [scaled] 平均值。它的特征值为。如果当然由所有对角元素的总和给出,则所有特征值的总和,即。所以第一个 PC 的解释方差的比例等于
所以在这个最简单的情况下,第一个 PC 解释方差的比例与平均相关性是 100% 相关的,并且对于大的大约等于它。这正是我们在你的情节中看到的。
我希望对于大型矩阵,即使相关性不完全相同,这个结果也将大致成立。
Update. Using the figure posted in the question, one can even try to estimate the by noticing that . If we take and , then we get . The OP said that the data was a "DAX stock index"; googling it, we see that it apparently consists of variables. Not a bad match.
我相信平均相关性和第一台 PC 的特征值之间的关系存在但不是唯一的。我不是能够推导出它的数学家,但我至少可以展示一个人的直觉或思想可能从何而来的起点。
如果您将标准化变量绘制为欧几里得空间中的向量(这是轴是观测值的缩减空间),则相关性是两个向量之间的余弦。
并且因为向量都是单位长度(由于标准化),余弦是向量在彼此上的投影(如左图所示,带有三个变量)。第一个 PC 是这个空间中的这样一条线,它使投影到其上的平方和的总和最大化,a,称为负荷;这个和是第一个特征值。
因此,当您建立左侧三个投影的均值与右侧三个平方投影的总和(或均值)之间的关系时,您就回答了有关平均相关性和特征值之间关系的问题。