如何规范化小数据集的特征?

数据挖掘 机器学习 预处理
2022-02-10 23:11:58

我正在使用一个小数据集( N = 50 )。我想规范化我的输入特征。我面临以下问题:

  1. 由于数据集的规模较小,训练输入特征的范围将不同于测试输入特征的范围。
  2. 输入特征没有理论上限。

你能推荐适合这项任务的标准化技术吗?任何论文建议也将不胜感激。

2个回答

您可以在您的训练集上使用MinMaxScaler,它将标准化[0, 1]内的特征。相同的缩放器可以转换测试集,如果有大于训练集中的值,缩放器通过返回大于 1 的值来处理。基本上,您的测试集将被标准化。

您应该在拆分后标准化您的数据集。您可以尝试标准缩放,因为这样可以避免考虑最小值和最大值。
您在训练和测试中有 2 个不同的范围这一事实根本不是积极的。在这种情况下,您可以进行一些重采样,例如 SMOTE。
让我知道