特征缩放的均值和方差

数据挖掘 机器学习 神经网络 深度学习 梯度下降 特征缩放
2021-10-14 07:52:32

许多人使用训练集的均值和方差来标准化测试集,而不是计算测试集的均值和方差并使用这些。这样做是不是很冒险?如果不是,为什么?

2个回答

用在测试集上计算的均值和方差来标准化测试集是没有意义的。充其量,测试均值和方差将与训练均值和方差足够接近,不会破坏您的模型 - 但为什么不通过对两者使用相同的标准化程序来保证它们相同。通常最好选择以下之一:

  1. 计算整个数据集(训练 + 测试)的均值和方差,并使用它们来标准化每个数据集。
  2. 计算训练集的均值和方差,并使用它们来标准化每组。

如果您不担心从测试集中泄漏信息,请选择(1),否则选择(2)。

如果您使用与训练集不同的值对测试集进行标准化,您最终可能会得到来自不同分布的训练和测试数据,这将导致无法做出准确的预测。

如果您有足够的数据,这并不危险。如果你有足够的数据,你可以以某种方式估计手头现象的分布。如果您找到了样本及其参数的分布,则意味着您了解所研究现象的所有信息。如果你熟悉统计和概率,你可能知道,只要你有足够的数据,你可以使用数据样本的平均值来估计随机变量的期望值,样本的标准差将等于样本的标准差。随机变量,如果你有足够的数据。如果您有足够的数据,则意味着平均值和期望值之间没有差异,样本的标准差和总体的标准差也没有差异。因此,如果您提取足够的数据,这些值可能会非常接近。此外,我们使用数据标准化的原因是我们希望具有相同规模的特征。这是主要原因,因此无需找到均值和标准差的准确值。您可能会在机器学习和深度学习从业者中看到他们可能不会执行此操作,因为它有点耗时。他们通常只是将每个特征除以数据样本中相应特征的最大值。