不知道最大值时如何缩放变量

数据挖掘 数据集 rnn 正常化 特征缩放
2022-02-15 07:47:14

我有一个具有不同特征的数据集,其中一些特征不是分类的,因此需要对它们进行缩放或规范化(尤其是目标)。

但是,例如在 0-1 之间进行归一化意味着变量最大值将等于 1,均值等于 0。

现在,如果我收到一个以前从未见过的新示例,并且该示例的值高于训练示例的最大值,该值应如何归一化?

编辑

举个例子。如果我的最大值是 150,它将被缩放到 1.0。现在,如果我收到一个值等于 320 的新示例,应该如何缩放它?

1个回答

如果你的模型在生产中工作,你不应该重新转换你的缩放器,你应该转换新的例子,比如 150 仍然是最大值。(它会给你高于 1,所以它有点问题,但可能的解决方案如下)但是你仍然可以将这些示例标记为异常值。

这种情况的可能解决方案:如果您有大量异常值/杠杆,您应该考虑树集成和/或正则化模型

如果您的预测器未投入生产,只需将这些示例添加到您的训练集中并再次拟合,因为您在第一次训练中的样本将与实际不同。