我有一个个样本的数据集,并注意到相关矩阵的特征值在以降序呈现时,在许多情况下可以描述为指数衰减函数。也就是说,从到. 此外,对于几个数据集,我发现衰减的指数相当恒定。
这是一个众所周知的事实还是只是一个人寻找模式的倾向?
显然,从 PCA / SVD 它告诉我一些关于使用低维矩阵逼近数据的能力。
关于这种衰变指数的大小是否有任何可靠的数学结果?
我有一个个样本的数据集,并注意到相关矩阵的特征值在以降序呈现时,在许多情况下可以描述为指数衰减函数。也就是说,从到. 此外,对于几个数据集,我发现衰减的指数相当恒定。
这是一个众所周知的事实还是只是一个人寻找模式的倾向?
显然,从 PCA / SVD 它告诉我一些关于使用低维矩阵逼近数据的能力。
关于这种衰变指数的大小是否有任何可靠的数学结果?
感谢@AndyW、@whuber 和@UriCohen,评论中的一切都已经基本弄清楚了,但我仍然想把它写成一个连贯的答案。
首先,让我说明最初的问题。这是我现在碰巧使用的一些实际真实数据(神经记录)的特征谱。前几台(~20-30)PC 显然带有一些信号,但之后特征值开始缓慢下降,看起来似乎是指数方式:请注意,频谱的中间部分几乎是这个对数图上的一条直线。我没有显示频谱的最后一部分,因为我在 PCA 之前使用了一些时间平滑,因此特征值几乎下降到 0。
问题是:为什么指数衰减?
答案是,我相信,任何高维真实数据都受到噪声的高度污染,因此大部分特征谱显示了纯噪声的谱行为。什么是随机协方差矩阵的谱?事实证明, Marchenko–Pastur 分布给出了一个很好的渐近结果,如果您愿意,请参阅1967 年俄语原始论文的 pdf 。
Marchenko 和 Pastur 告诉我们考虑一个随机数据矩阵用独立的高斯随机值填充的大小. 如果和,然后在极限其协方差矩阵的特征值分布由下式给出
让我们验证一下。我生成了一个随机矩阵大小,计算其协方差矩阵,然后计算特征谱。下面的第一个子图显示了协方差矩阵。第二个显示了特征值的分布(直方图)和上面给出的 Marchenko-Pastur 函数。它非常适合。
但我们对特征值的分布感兴趣的不是特征值,而是特征谱本身。如果我们从 Marchenko-Pastur 分布(形成光谱)中抽取 1000 个值并按降序对它们进行排序,则结果函数将由下式给出重新调整为, 在哪里是 Marchenko-Pastur 累积分布函数,即. 上图中的第三个子图显示了经验谱与 Marchenko-Pastur 拟合。
计算起来很乱,这是 Wolfram Alpha 的尝试。但我们可以注意到在其域的中间(周围) 很好地近似为一条直线。这意味着将是近似二次的,所以它的倒数.
换句话说,衰减根本不是指数的,而是平方根衰减!然而,有趣的是,它非常接近指数形状,因此在对数图(见上面的第四个子图)上,光谱的中间部分看起来很直。