我有一个具有数值和分类特征(变量)的数据集,我将所有分类变量转换为虚拟变量,然后拆分训练数据和测试数据。
现在我要在拟合模型之前对特征进行标准化。
我应该将标准化应用于所有特征还是仅应用于数字特征?
在这种情况下,是否最好在 0 到 1 的范围内使用 MinMax 缩放器?
我有一个具有数值和分类特征(变量)的数据集,我将所有分类变量转换为虚拟变量,然后拆分训练数据和测试数据。
现在我要在拟合模型之前对特征进行标准化。
我应该将标准化应用于所有特征还是仅应用于数字特征?
在这种情况下,是否最好在 0 到 1 的范围内使用 MinMax 缩放器?
1)虚拟变量不需要标准化,只是数值变量,但是如果你使用 MaxMin 缩放器,你可以同时传递数值和虚拟变量,因为这个缩放器不会改变虚拟变量的值,尝试将方程应用于虚拟变量要查看的变量。
2)这是一个棘手的问题,答案是:这取决于。如果您的数据中有一些异常值 MaxMin 不适合,因为这个异常值将被 0 或 1 替换,并且其余数据将被限制在非常有限的值范围内,在这种情况下,您应该使用正常的缩放器.