已知特征值的分布

机器算法验证 相关性 主成分分析 协方差 特征值 随机矩阵
2022-04-05 12:52:41

我熟悉使用随机矩阵理论的见解来确定协方差/相关矩阵的 PCA 中用于形成因子的主成分的数量。

如果与第一个 PC 关联的特征值很大,则意味着剩余的特征值必须很小(因为特征值之和必须等于相关矩阵的迹)。当第一个 PC 足够大时,所有这些特征值都可能低于 Marcenko-Pastur 分布的下限。这是有道理的,它们低不是因为随机机会,而是因为第一个特征值非常大。但是,这并不意味着它们包含重要信息。相反,问这样一个问题是有意义的:“鉴于第一台 PC 是一个很大的数,如果随机数据对剩余特征值负责,那么剩余特征值的分布会是什么样子?”

是否有任何研究可以解决这个问题?如果可以在知道一个或多个特征值的情况下获得 Marcenko-Pastur 分布,那么就可以迭代地确定这些因子是否反映了重要信息。

1个回答

这是关于您的问题的文件:http: //math.nyu.edu/faculty/avellane/LalouxPCA.pdf

这个想法很简单,您可以使用矩阵元素的修改方差来计算 Marcenko-Pastur 分布。修改后的方差仅对应于由第一个特征值以外的其他特征值解释的方差。

正如约翰所说,你必须更换σ2经过(i=1nλij=1Jλj)/n为了第一J特征值。如果您已将问题标准化并且只想删除第一个组件,则必须更换σ2经过1λ1n. 您将获得:

ρ(λ)=nQ2π(1λ1)((λmaxλ)(λλmin)λ)

和:

λmin/max=n(1λ1)(1+1Q±21Q)

由于矩阵中的信息可能比一个大的特征值和噪声更多,因此您会观察到一些差异。例如,在市场相关性研究中,我们可以观察到频谱上边缘的特征值泄漏。(它对应于金融部门)。

文档中提到的另一种方法是考虑σ2作为 marcenko pasteur 分布中的单个参数。然后,您必须调整此参数以适合您的曲线。

更多有用的技术和参考资料,可以看看:http ://arxiv.org/abs/physics/0507111