相关矩阵的特征值呈现指数衰减

机器算法验证 相关性 主成分分析 svd 特征值 光谱分析
2022-04-08 16:55:20

我有一个个样本的数据集,并注意到相关矩阵的特征值在以降序呈现时,在许多情况下可以描述为指数衰减函数。也就是说,从. 此外,对于几个数据集,我发现衰减的指数相当恒定。PNATAi=1..Nlog|λi|

这是一个众所周知的事实还是只是一个人寻找模式的倾向?

显然,从 PCA / SVD 它告诉我一些关于使用低维矩阵逼近数据的能力。

关于这种衰变指数的大小是否有任何可靠的数学结果?

1个回答

感谢@AndyW、@whuber 和@UriCohen,评论中的一切都已经基本弄清楚了,但我仍然想把它写成一个连贯的答案。

首先,让我说明最初的问题。这是我现在碰巧使用的一些实际真实数据(神经记录)的特征谱。前几台(~20-30)PC 显然带有一些信号,但之后特征值开始缓慢下降,看起来似乎是指数方式:请注意,频谱的中间部分几乎是这个对数图上的一条直线。我没有显示频谱的最后一部分,因为我在 PCA 之前使用了一些时间平滑,因此特征值几乎下降到 0。

经验特征谱

问题是:为什么指数衰减?

答案是,我相信,任何高维真实数据都受到噪声的高度污染,因此大部分特征谱显示了纯噪声的谱行为。什么是随机协方差矩阵的谱?事实证明, Marchenko–Pastur 分布给出了一个很好的渐近结果,如果您愿意,请参阅1967 年俄语原始论文的 pdf 。

Marchenko 和 Pastur 告诉我们考虑一个随机数据矩阵N×D用独立的高斯随机值填充的大小N(0,σ2). 如果σ2=1N=D,然后在极限N其协方差矩阵的特征值分布由下式给出

μ(x)=4xx22πx.

让我们验证一下。我生成了一个随机矩阵1000×1000大小,计算其协方差矩阵,然后计算特征谱。下面的第一个子图显示了协方差矩阵。第二个显示了特征值的分布(直方图)和上面给出的 Marchenko-Pastur 函数。它非常适合。

Marchenko-Pastur 分布

但我们对特征值的分布感兴趣的不是特征值,而是特征谱本身。如果我们从 Marchenko-Pastur 分布(形成光谱)中抽取 1000 个值并按降序对它们进行排序,则结果函数将由下式给出S(x)=(1M(x))1重新调整为[1,1000], 在哪里M(x)是 Marchenko-Pastur 累积分布函数,即M(x)=0xμ(t)dt. 上图中的第三个子图显示了经验谱与 Marchenko-Pastur 拟合。

计算起来很乱M(x),这是 Wolfram Alpha 的尝试但我们可以注意到μ(x)在其域的中间(周围x2) 很好地近似为一条直线。这意味着M(x)将是近似二次的,所以它的倒数S(x)constx.

换句话说,衰减根本不是指数的,而是平方根衰减!然而,有趣的是,它非常接近指数形状,因此在对数图(见上面的第四个子图)上,光谱的中间部分看起来很直。