归一化和均值居中数据有什么作用?

数据挖掘 预处理
2022-03-01 14:29:21

将数据规范化到 0 - 1 范围内并意味着数据居中是否有任何问题?

哪个先出现有关系吗?

如果你做一个,另一个不需要吗?

1个回答

如果您在标准化之前没有居中,那么如果您的输入为非负数,则您不会利用整个 [-1,1] 范围。居中和归一化的结合称为标准化

有时通过标准变化进行归一化,而其他时候仅通过范围(最大-最小)进行归一化。后者称为特征缩放效果大同小异。按范围归一化在计算上更容易。通过标准偏差进行归一化修复了样本方差,从统计角度来看这很好。当使用标准偏差时,减法通常是针对样本均值而不是最小值。

执行标准化有几个原因。有时我们对相对值而不是绝对值感兴趣。标准化使这些不相关的差异保持不变。通过明确地预处理数据以反映这种不感兴趣,我们使模型不必学习它,从而允许我们使用更简单的模型。另一个原因是计算;它减少了条件数——您可以将其视为损失表面的偏度或美观度——使优化更容易和更快。