我有一个具有不同特征的数据集,其中一些特征不是分类的,因此需要对它们进行缩放或规范化(尤其是目标)。
但是,例如在 0-1 之间进行归一化意味着变量最大值将等于 1,均值等于 0。
现在,如果我收到一个以前从未见过的新示例,并且该示例的值高于训练示例的最大值,该值应如何归一化?
编辑
举个例子。如果我的最大值是 150,它将被缩放到 1.0。现在,如果我收到一个值等于 320 的新示例,应该如何缩放它?
我有一个具有不同特征的数据集,其中一些特征不是分类的,因此需要对它们进行缩放或规范化(尤其是目标)。
但是,例如在 0-1 之间进行归一化意味着变量最大值将等于 1,均值等于 0。
现在,如果我收到一个以前从未见过的新示例,并且该示例的值高于训练示例的最大值,该值应如何归一化?
编辑
举个例子。如果我的最大值是 150,它将被缩放到 1.0。现在,如果我收到一个值等于 320 的新示例,应该如何缩放它?
如果你的模型在生产中工作,你不应该重新转换你的缩放器,你应该转换新的例子,比如 150 仍然是最大值。(它会给你高于 1,所以它有点问题,但可能的解决方案如下)但是你仍然可以将这些示例标记为异常值。
这种情况的可能解决方案:如果您有大量异常值/杠杆,您应该考虑树集成和/或正则化模型。
如果您的预测器未投入生产,只需将这些示例添加到您的训练集中并再次拟合,因为您在第一次训练中的样本将与实际不同。