在最近的 Kaggle 比赛中,我(手动)为我的训练集定义了 10 个附加特征,然后将它们用于训练随机森林分类器。我决定在具有新功能的数据集上运行 PCA,以查看它们之间的比较。我发现约 98% 的方差是由第一个分量(第一个特征向量)携带的。然后我多次训练分类器,一次添加一个特征,并使用交叉验证和 RMS 误差来比较分类的质量。我发现每增加一个特性,分类都会得到改善,最终结果(包含所有 10 个新特性)比第一次运行(比如说)2 个特性要好得多。
鉴于 PCA 声称大约 98% 的方差在我的数据集的第一个组成部分中,为什么分类的质量会提高这么多?
这适用于其他分类器吗?RF 可以跨多个内核扩展,因此它的训练速度比(比如说)SVM 快得多。
如果我将数据集转换为“PCA”空间,并在转换后的空间上运行分类器会怎样。我的结果将如何变化?