我如何使用均值归一化。我应该将它用于数字列还是分类列?

数据挖掘 机器学习 预处理
2022-02-26 19:39:41

我们应该规范化数据集中的分类列吗?还是只是数字列?

2个回答

规范化和标准化是只能应用于度量变量的转换。您不能标准化分类变量。

根据您使用的算法,您可以对数据进行标签编码,也可以对其进行热编码。这就是你所做的一切。

我的意思是在使用目标编码对分类变量进行编码之后,我们可以使用均值归一化吗?它会有用吗?

我认为这取决于。先验我倾向于认为这没有任何意义,但让我们考虑一下。您正在使用与目标有些相关的数字对每个值进行编码。这些数字在什么范围内?现在,我认为回答这个问题的主要方法是检查以下问题:

标准化的目的是什么?

有些算法可以理解更大的值具有更大的意义,并且通过简单地具有不同范围的特征来阻止算法表现良好。在这里,标准化似乎是有意义的。

在这里Urvashi Jaitley解释说,如果没有标准化,

梯度最终可能需要很长时间,并且可能会来回振荡,并且需要很长时间才能最终找到全局/局部最小值。为了克服模型学习问题,我们对数据进行规范化。

在考虑了一下这一点之后,虽然一开始对我来说没有多大意义,但我现在认为规范化也适用于这种情况。

正如对@georg_un 回答的评论:

如果我们对分类变量进行 one-hot 或 target 编码,标准化或归一化会帮助模型吗?或者我不能简单地应用任何类型的缩放并且算法无论如何都可以正常工作?

如果您对变量进行热编码,则值将是 0 或 1。在这里归一化确实没有意义。你想要的是一个二进制变量来表示是或否。你不希望那里有灰色。

希望这可以帮助!