我读了很多相互矛盾的意见,我觉得我需要自己问这个问题。
假设我在具有 60 个变量的数据集上使用 PCA,发现我可以用 6 个主成分解释 98% 的方差,并且我得到了一个不错的模型来预测我想要什么。
现在我得到了一些新数据(测试),然后应该将这些数据转换为相同的“PCA 空间”,以便我的模型能够正确解释它吗?所以我会使用与我的训练数据相同的缩放比例来缩放它,然后使用来自原始 PCA 的加载分数将我的新数据转换为“PCA 空间”?
我问的原因是我已经看到很多人在进行测试/训练拆分之前进行 PCA,所以他们的测试数据已经“转换”了,这对我来说似乎是个错误?不应该只在训练数据上使用 PCA,然后使用来自该 PCA 的负载将测试数据转换为相同的维度吗?