为了获得中的一些高维数据,我使用 PCA:其中包含的特征向量,对应于其主要特征值。
但是,如果多次出现,例如,第一个显性特征值,我的 PCA 解决方案(如上定义)将不一致:它取决于我使用的方法声明为“第一个显性”的实际特征值为特征分解。实现一致解决方案的秘诀是什么?
也许更重要的是以下。即,PCA 保证沿轴的最大方差;上述问题对沿轴具有最大方差的解有什么影响?无论使用哪个与主要第一个特征值对应的特征向量,每个解决方案都会保留最大方差吗?
为了获得中的一些高维数据,我使用 PCA:其中包含的特征向量,对应于其主要特征值。
但是,如果多次出现,例如,第一个显性特征值,我的 PCA 解决方案(如上定义)将不一致:它取决于我使用的方法声明为“第一个显性”的实际特征值为特征分解。实现一致解决方案的秘诀是什么?
也许更重要的是以下。即,PCA 保证沿轴的最大方差;上述问题对沿轴具有最大方差的解有什么影响?无论使用哪个与主要第一个特征值对应的特征向量,每个解决方案都会保留最大方差吗?
PCA 之所以这样称呼,是因为它选择了主成分。如果您碰巧有几个具有相同或几乎相同特征值的组件,并且您选择了一个但没有选择另一个,那么您不能声称您选择了主要组件。您选择了主成分的一个子集。换句话说,如果你的第二个特征值加倍,那么只选择两个主成分不是一个有用的策略,但你需要考虑三个。
如果最大特征值具有多重性,则 PCA 解决方案实际上取决于您选择的特征向量作为“前两个占主导地位”。不同的选择会给你原始高维数据的不同表示,但它们都将具有相同的最大方差。