所以我知道,当我们有不同值范围的不同参数时,我们必须标准化这些值。另外,我读到,当一个参数实际上需要更高的值时,我们不应该对其进行规范化。然而,情况不总是如此吗?例如,如果我们有年龄和薪水,薪水不是总是大于年龄吗?标准化这些值不会丢失可能的重要信息吗?
此外,您应该始终规范化整个数据集,还是可以简单地规范化多个特定列?
所以我知道,当我们有不同值范围的不同参数时,我们必须标准化这些值。另外,我读到,当一个参数实际上需要更高的值时,我们不应该对其进行规范化。然而,情况不总是如此吗?例如,如果我们有年龄和薪水,薪水不是总是大于年龄吗?标准化这些值不会丢失可能的重要信息吗?
此外,您应该始终规范化整个数据集,还是可以简单地规范化多个特定列?
标准化是一个非常模糊的概念。大多数时候,它被误解了。我将以神经网络的具体案例为例进行说明:
我遇到的标准化最常见的解释是,如果您有 2 个特征,其中一个的规模比另一个大得多,例如房价和房屋面积,那么规模更大的特征将主导输出。在我看来这是非常不正确的,因为当你通过神经网络进行反向传播时,权重更新与激活成正比,因此更大的激活意味着更大的反馈,因此权重会更快地减小并变得更小,直到w1*house price = w2*house area
这种关系大致成立。是的,它会导致更多的振荡(直觉上是因为学习率也会乘以更大的规模),但它最终可能会收敛。
因此,使用归一化的最佳 3 个原因是:
-1 to 1
,因此梯度更新也很小,从而导致更快的收敛.softmax/sigmoid
在最后一层使用,它会压缩输出。如果你有一个大的输出,通常是由于未标准化的数据,它会导致精确的 0 或精确的 1 输出,它被输入一个log
函数和 BAM!溢出。错误变为inf
或NaN
在python中。所以inf
误差意味着梯度爆炸,NaN
意味着梯度无法计算。因此,您从一开始就没有进行培训,并且inf
通常会继续进行NaN
这将持续到永恒。这可能可以通过使用更高的浮点精度来解决,但它会导致更高的内存和处理器消耗,最终导致效率低下。TL;DR:归一化用于更快的权重收敛。非标准化数据面临的问题是更大的权重振荡、非最优方向的权重更新、深度神经网络中的精度溢出。
执行标准化以平衡权重并使参数具有通用性。在您提到的情况下,这是区间标准化(因此是数字,因此是具有标准顺序和距离度量的集合)。只是为了对比,字符串规范化可能涉及词干、转换为大写或许多其他技术,具体取决于上下文。由于缩放(乘以相同的因子)是线性运算,因此它保留了顺序和大小关系以及其他属性。因此,在一般情况下,规范化不会丢失有关参数/维度内关系的信息。
如果我们为了示例而使用简单的聚类算法,请考虑年龄可能具有(大约)(0-100)的范围,而薪水可能类似于区间(1-10^6)。一种天真的方法是不执行归一化并使用默认的欧几里得距离度量。但是,高达 100 美元的工资差异可以忽略不计。因此,您的工资信息将主导您的年龄信息,从而导致数据点(以及集群)之间的距离主要由工资决定。对于聚类而言,年龄的次要作用将变得可以忽略不计。但是,如果我们将两者归一化到 (0-1) 的范围内,我们可能会得到一些可比较的尺度,并且因素影响会非常小(但仍有待考虑)。
由于括号中的最后一句话,大多数先进的机器学习算法(包括神经网络、支持向量机)实际上处理不同的尺度。当您使用这些时,您不需要对数据进行规范化,因为该算法会学习规范化以及数据的其他属性。
何时对数据进行规范化取决于您的问题背景和您计划采取的方法。假设规范化数据使得从第一个视图中更容易判断一个值是低还是高。
matpo 和 DuttaA 都给出了很好的技术答案,所以我将添加一个易于记忆的短语,它涵盖了归一化的大量原因:苹果和橙子。
当您有以不同单位测量的变量时,您应该始终进行标准化,除非有令人信服的理由不这样做。