我在进行分类时遇到了问题。我有大约 50 个数据集。它们每个都有 15 个特征。
我正在尝试使用这些功能将 50 个数据集分类为“好”或“坏”。50 个数据集的真实标签可用,因此可以进行经典训练和验证。
由于有 15 个特征,该问题应被视为高维分类。我的问题是:
我们是否应该在运行任何通用分类算法(例如 LDA、KNN 或 SVM)之前始终执行 PCA?
我得到了某人的意见:
“PCA 选择变量分布最大的方向,而不是聚类子类之间相对距离最大的维度。”
但就我的理解而言,为了更好地分类,我们需要找到两组之间差异较大的特征。例如,我们可以分别计算一个特征对于'Good'和'Bad'的均值和标准差,我们可以看看是否有很大的差异。如果是这样,我们选择此功能。此外,我们需要找到两者之间相关性最小的特征。如果两个特征有很大的正相关,我们可以选择使用其中一个。PCA 以某种方式为我们提取了降维特征,给定 15 个特征,它会给出 2 或 3 个可以更好分类的主成分。我对吗?还是我走错路了?