使用数字和虚拟特征标准化数据集

数据挖掘 机器学习 预处理 特征缩放
2022-03-09 07:30:19

我有一个具有数值和分类特征(变量)的数据集,我将所有分类变量转换为虚拟变量,然后拆分训练数据和测试数据。

现在我要在拟合模型之前对特征进行标准化。

  1. 我应该将标准化应用于所有特征还是仅应用于数字特征?

  2. 在这种情况下,是否最好在 0 到 1 的范围内使用 MinMax 缩放器?

1个回答

1)虚拟变量不需要标准化,只是数值变量,但是如果你使用 MaxMin 缩放器,你可以同时传递数值和虚拟变量,因为这个缩放器不会改变虚拟变量的值,尝试将方程应用于虚拟变量要查看的变量。

zi=ximin(x)max(x)min(x)

2)这是一个棘手的问题,答案是:这取决于。如果您的数据中有一些异常值 MaxMin 不适合,因为这个异常值将被 0 或 1 替换,并且其余数据将被限制在非常有限的值范围内,在这种情况下,您应该使用正常的缩放器.