我知道 PCA 用于降维以便能够绘制 2D 或 3D 数据集。但我也看到人们在分类场景中应用 PCA 作为预处理步骤,他们应用 PCA 来减少特征数量,然后他们使用一些主成分(协方差矩阵的特征向量)作为新特征。
我的问题:
这对分类性能有什么影响?
何时应用这样的预处理步骤?
我有一个数据集,其中包含 10 个实数特征和 600 个表示分类特征的二进制特征,使用一对多编码来表示它们。在这里应用 PCA 是否有意义并产生更好的结果?
ps 如果问题太宽泛,如果您提供一篇论文或教程来更好地解释以这种方式使用 PCA 的细节,我将不胜感激。
ps 看了一点之后,我发现使用潜在语义分析来减少分类属性的二元特征的数量可能会更好?所以我不接触实值特征,而只是预处理二进制特征,然后将实值特征与新特征结合起来训练我的分类器。你怎么看?