为什么测试数据需要在训练数据均值和标准上进行归一化?

数据挖掘 正常化
2022-02-18 13:38:50

我理解为什么对一般数据进行规范化很有用(至少我认为是这样)。您获取训练数据的平均值和标准差,并将其应用于训练数据测试数据。

为什么我们不能取整个数据集(训练和测试数据)的均值和标准差,然后围绕这些值进行归一化?

1个回答

将数据集拆分为训练和测试的原因是为了模拟真实案例。您对训练拆分验证的实际操作是在未知数据中评估您的模型。

现在想象一下,你已经训练了你的模型,并且你正在生产一个不断涌现的新数据进行预测的产品。您可能不会大量获取它们,而是诸如在 API 调用中一一获取。您没有这些“新”数据的均值和标准差。在训练过程中,您只有平均值和标准差。

总而言之,训练测试验证试图尽可能接近真正的问题。而且由于您对即将到来的数据一无所知,因此您不应使用从测试数据中获得的任何知识。