对相关矩阵特征值分布的直觉/解释?

机器算法验证 分布 相关性
2022-02-05 02:57:45

您对相关矩阵特征值分布的直觉/解释是什么?我倾向于听到通常 3 个最大的特征值是最重要的,而那些接近于零的是噪声。此外,我还看到一些研究论文研究了自然发生的特征值分布与从随机相关矩阵计算出的特征值分布有何不同(同样,从信号中区分噪声)。

请随时详细说明您的见解。

4个回答

特征值给出了数据传播的主要成分的大小。


(来源:yaroslavvb.com
第一个数据集是从高斯和协方差矩阵生成的(3001)第二个数据集是旋转的第一个数据集π/4

我倾向于听到通常 3 个最大的特征值是最重要的,而那些接近于零的是噪声

你可以测试一下。有关更多详细信息,请参阅本文中链接的论文同样,如果您要处理金融时代系列,您可能想首先纠正 Leptokurticity(即考虑 garch 调整后的回报系列,而不是原始回报)。

我看过一些研究论文,研究自然发生的特征值分布与从随机相关矩阵计算出的特征值分布有何不同(同样,从信号中区分噪声)。

爱德华:> 通常,人们会以另一种方式来做:查看来自您想要的应用程序的特征值(相关矩阵)的多元分布。一旦您确定了特征值分布的可靠候选者,从它们中生成应该相当容易。

如何识别特征值的多元分布的最佳程序取决于您要同时考虑多少资产(即相关矩阵的维度是多少)。如果有一个巧妙的技巧p10(p是资产的数量)。

编辑(Shabbychef 评论)

四步程序:

  1. 假设你有j=1,...,J多元数据的子样本。您需要方差-协方差矩阵的估计器C~j对于每个子样本j(您可以使用经典估计器或稳健的替代方案,例如快速 MCD,它在 matlab、SAS、S、R 等中得到了很好的实现)。像往常一样,如果您处理金融时间序列,您需要考虑 garch 调整后的收益序列,而不是原始收益。
  2. 对于每个子样本j, 计算Λ~j= log(λ~1j),...,log(λ~pj), 的特征值C~j.
  3. 计算CV(Λ~), 的凸包J×p矩阵,其第 j 个条目是Λ~j(同样,这在 Matlab、R、...中得到了很好的实现)。
  4. 从内部随机绘制点CV(Λ~) (这是通过赋予重量来完成的wi到每个边缘CV(Λ~)在哪里wi=γii=1pγi, 在哪里γi是从单位指数分布中抽取的(更多细节在这里)。

一个限制是,当维数大于 10 时,一系列点的凸包的快速计算会变得非常慢。J2

我过去研究过这个问题的一种方法是构建相关矩阵的“特征组合”。也就是说,取与k相关矩阵的最大特征值并将其缩放到总杠杆为 1(即使向量的绝对和等于 1)。然后看看你是否能找到在投资组合中具有很大代表性的股票之间的任何真实的物理或财务联系。

通常,第一个特征投资组合在每个名称中的权重几乎相同,也就是说,“市场”投资组合由具有相同美元权重的所有资产组成。第二个特征投资组合可能有一些语义含义,具体取决于您查看的时间段:例如,主要是能源股或银行股等。根据我的经验,您很难从第五个特征投资组合或以后做出任何故事,这在某种程度上取决于宇宙选择和所考虑的时间段。这很好,因为通常第五个特征值左右不会超出 Marchenko-Pastur 分布施加的限制太远。

你的每一个价值N变量定义了一个点N维空间。这种点云通常是椭球状的(如果不是,那么您不应该将变量视为线性相关,并且相关性没有多大意义)。椭球的轴对应于相关矩阵的特征向量,它们的“强度”对应于它们的特征值。该证明可以在任何涵盖主成分分析的时间序列分析教科书中找到。为什么 PCA 或其他基于特征值的方法很重要的松散直觉是,您有一些具有一些“主要”原因的过程,其余的是“噪音”。如果我们假设噪声在每个维度上大致相等(因为我们可能对此一无所知,我们假设它不是特别定向的)。