数据挖掘 - 不知道最大值时如何缩放变量 - 吾爱随笔录

数据挖掘数据集 rnn 正常化特征缩放

2022-02-15 07:47:14

我有一个具有不同特征的数据集，其中一些特征不是分类的，因此需要对它们进行缩放或规范化（尤其是目标）。

但是，例如在 0-1 之间进行归一化意味着变量最大值将等于 1，均值等于 0。

现在，如果我收到一个以前从未见过的新示例，并且该示例的值高于训练示例的最大值，该值应如何归一化？

编辑

举个例子。如果我的最大值是 150，它将被缩放到 1.0。现在，如果我收到一个值等于 320 的新示例，应该如何缩放它？

1个回答

如果你的模型在生产中工作，你不应该重新转换你的缩放器，你应该转换新的例子，比如 150 仍然是最大值。（它会给你高于 1，所以它有点问题，但可能的解决方案如下）但是你仍然可以将这些示例标记为异常值。

这种情况的可能解决方案：如果您有大量异常值/杠杆，您应该考虑树集成和/或正则化模型。

如果您的预测器未投入生产，只需将这些示例添加到您的训练集中并再次拟合，因为您在第一次训练中的样本将与实际不同。

其它你可能感兴趣的问题