应该在训练测试拆分之前或之后对数据集应用降维方法吗?无论如何,如果用 dim-red 进行预处理来训练模型,应该将相同的 dim-red 应用于要预测的未来实例,对吗?但是你怎么能以同样的方式减少单个实例的维数呢?
降维 - 训练测试拆分之后或之前
数据挖掘
降维
2021-09-26 01:12:12
2个回答
这取决于您用于降维的算法类型。如果你使用 PCA,你应该在你的火车上构建你的 PCA。然后你需要设置你的主成分来将你在测试集中的点转换到相同的空间。这样,您就可以在同一个缩减空间中使用训练集和测试集。
您应该始终只使用您的训练数据,然后对您的测试数据应用相同的转换。这是一个更公平的表示,当真正的新的未见过的样本被馈送到您的模型时,您的模型将如何执行。测试集的重点是尝试估计对看不见的数据的泛化,使用您的测试数据将信息泄漏到您的训练集中。另外,如果您无法将转换应用于测试数据,您将如何将其应用于新数据?
其它你可能感兴趣的问题