我有训练和测试数据集来处理。我想应用 PCA 来减小尺寸。
在应用 PCA 之前,我是否需要将训练和测试数据集合并在一起?或者我应该在训练数据集上应用 PCA,选择缩减维度,并为训练和测试数据集处理缩减数据集?
我有训练和测试数据集来处理。我想应用 PCA 来减小尺寸。
在应用 PCA 之前,我是否需要将训练和测试数据集合并在一起?或者我应该在训练数据集上应用 PCA,选择缩减维度,并为训练和测试数据集处理缩减数据集?
主成分分析将为您提供一些主成分; 这些成分将定性地代表样本中的主要和正交变化模式。您将使用其中的(一些)投影您的原始数据集到低维子空间. 这是您的新数据集,PC 实际上是一个轴系统,我们可以在其上表示数据以紧凑的形式。
现在,正如@RobertKubrick 提到的,您需要确保测试数据集中的信息不会“泄露”到您的训练数据集中。如果发生这种情况,那么您将在预测过程中利用“应该未知”的信息;您的错误估计将是错误的。您的模型的泛化将受到影响。
特别是对于您的情况,您应该执行以下操作:计算主成分s 在训练数据集上,然后利用训练样本减少测试数据集的维度。我这样说是因为:
显然,如果你这样做-折叠交叉验证,或类似的东西(例如千斤顶刀),您需要计算新的主成分每一次。IT Jolliffe 的主成分分析是 PCA 的标准和很好的参考;我强烈推荐它。
测试集永远不应包含在您的建模决策中,否则您将失去不拟合数据的好处。这适用于回归、PCA 或任何其他拟合技术。
您想要计算模型“看不见”的数据的预测误差。