处理 PCA 获得的不一致解决方案

计算科学 线性代数 矩阵 高维 机器学习
2021-11-27 20:10:59

为了获得中的一些高维数据,我使用 PCA:其中包含的特征向量,对应于其主要特征值。XRn×2YRn×k

X=YU,
URk×2YTY

但是,如果多次出现,例如,第一个显性特征值,我的 PCA 解决方案(如上定义)将不一致:它取决于我使用的方法声明为“第一个显性”的实际特征值为特征分解。实现一致解决方案的秘诀是什么?

也许更重要的是以下。即,PCA 保证沿轴的最大方差;上述问题对沿轴具有最大方差的解有什么影响?无论使用哪个与主要第一个特征值对应的特征向量,每个解决方案都会保留最大方差吗?

2个回答

PCA 之所以这样称呼,是因为它选择了主成分如果您碰巧有几个具有相同或几乎相同特征值的组件,并且您选择了一个但没有选择另一个,那么您不能声称您选择了主要组件您选择了主成分的一个子集。换句话说,如果你的第二个特征值加倍,那么只选择两个主成分不是一个有用的策略,但你需要考虑三个。

如果最大特征值具有多重性,则 PCA 解决方案实际上取决于您选择的特征向量作为“前两个占主导地位”。不同的选择会给你原始高维数据的不同表示,但它们都将具有相同的最大方差。