我熟悉使用随机矩阵理论的见解来确定协方差/相关矩阵的 PCA 中用于形成因子的主成分的数量。
如果与第一个 PC 关联的特征值很大,则意味着剩余的特征值必须很小(因为特征值之和必须等于相关矩阵的迹)。当第一个 PC 足够大时,所有这些特征值都可能低于 Marcenko-Pastur 分布的下限。这是有道理的,它们低不是因为随机机会,而是因为第一个特征值非常大。但是,这并不意味着它们包含重要信息。相反,问这样一个问题是有意义的:“鉴于第一台 PC 是一个很大的数,如果随机数据对剩余特征值负责,那么剩余特征值的分布会是什么样子?”
是否有任何研究可以解决这个问题?如果可以在知道一个或多个特征值的情况下获得 Marcenko-Pastur 分布,那么就可以迭代地确定这些因子是否反映了重要信息。