我正在做一个使用 PCA 压缩图像的练习,但我不太明白如何在测试数据上使用它:
在训练数据中,我有 300 张手绘 6 的图像,由 28x28 矩阵表示,我使用 PCA 来找到这些图像的适当低维表示(26 维为我提供了 90% 的阈值),给了我一个300x26 矩阵,我可以用它把我的图像投影到那个空间
现在我必须用我的 10 个相似图像的测试数据来测试它——所以我必须将它们投影到同一个空间中。
因为我不能只使用火车空间(尺寸不一致),如果我理解正确,我应该运行另一个 PCA 来找到这些新图像的主要组件,但将它们投影到我的火车识别的 26 个维度中PCA(仅测试中的 PCA 表明 6 个维度就足够了,但我希望从我广泛的训练数据中获得更准确的 26 个维度)
但这是我苦苦挣扎的地方:如何将测试数据居中?为了在使用 PCA 或双 PCA 之前集中数据,我从数据中扣除了平均值。在构建我的测试 PCA 时,我应该扣除训练数据的平均值还是测试数据的平均值?