我有一个数据集,我有多组二进制标签。对于每组标签,我训练一个分类器,通过交叉验证对其进行评估。我想使用主成分分析(PCA)来降低维度。我的问题是:
是否可以对整个数据集进行一次PCA ,然后如上所述使用较低维度的新数据集进行交叉验证?还是我需要为每个训练集做一个单独的 PCA(这意味着为每个分类器和每个交叉验证折叠做一个单独的 PCA)?
一方面,PCA 不使用任何标签。另一方面,它确实使用测试数据进行转换,所以我担心它可能会使结果产生偏差。
我应该提到,除了为我节省一些工作之外,对整个数据集执行一次 PCA 可以让我一次可视化所有标签集的数据集。如果每个标签集都有不同的 PCA,我需要分别可视化每个标签集。