特征缩放

数据挖掘 机器学习 特征缩放
2022-03-07 09:28:45

我正在努力解决与特征缩放相关的概念问题。

假设我正在构建一个分类器(例如,一个 NN),并假设我依赖于未来对模型的输入特征进行缩放。

在这种情况下,我将使用它的均值和它的标准对训练集进行归一化,我将使用测试均值和标准对测试集做同样的事情。

让我们也假设我成功构建了我的分类器,然后我开始尝试对新输入进行分类。然而,对于这样的新输入,均值和标准是未知的!在使用我的模型进行处理之前,如何适当地缩放它们?也许我可以使用训练+测试中的平均值和标准......

我真的不知道这里的正确做法是什么……有什么提示吗?

感谢您的帮助!

1个回答

您应该仅在您的训练数据集上应用规范化。您的测试集应完全独立,仅在选择最终模型时使用。如果在归一化中使用包含测试集,则可以看作是在训练过程中使用了测试集。这称为数据窥探。

您应该预处理训练数据集并在之后处理测试集时使用获得的均值和标准差。请注意,测试数据集的转换可能不完美(它不会具有零均值或统一标准偏差),但可以安全地使用此测试数据集,因为它不会影响学习过程的任何步骤。