使数据具有零均值的想法

机器算法验证 数据挖掘 数据集
2022-03-08 04:43:19

我经常看到人们通过从所有元素中删除均值来使数据集的维度/特征为零均值。但我从来不明白为什么要这样做?作为预处理步骤这样做有什么影响?它是否提高了分类性能?回答有关数据集的问题是否有帮助?在进行可视化以理解数据时是否有帮助?

3个回答

在某些情况下,“将数据集中在平均值上”(以下简称“去意义”)很有用:

1)视觉检测一个分布是否与另一个分布“相同”,只是它已经在真实线上移动了。使两个分布都具有零均值,使这种视觉检查更加容易。有时,如果平均值相差很大,在同一张图表上查看它们是不切实际的。想想两个普通的房车,说一个N(10,4)和一个N(100,4). 密度图的形状相同,只是它们在实线上的位置不同。现在假设你有它们的密度函数图,但你不知道它们的方差。贬低它们会将一张图叠加在另一张图上。

2)简化高阶矩的计算:虽然向随机变量添加一个常数不会改变它的方差,或者它与另一个随机变量的协方差,但是,如果你有一个非零均值,你必须写出详细的计算,您必须写下所有条款并表明它们取消了。如果变量被贬低,你可以节省很多无用的计算。

3)以均值为中心的随机变量是中心极限定理的主题

4)与“平均值”的偏差在许多情况下是令人感兴趣的问题,以及它们是否倾向于“高于或低于平均值”,而不是随机变量的实际值。“翻译”(视觉上和/或计算上)低于平均值的偏差为负值,高于平均值的偏差为正值,使信息更清晰、更强烈。

有关更深入的讨论,另请参阅

在进行多元回归时,什么时候应该将预测变量居中以及什么时候应该标准化它们?

在多元回归中居中数据

如果您在 CV 上搜索“居中数据”,您还会发现其他有趣的帖子。

此外,出于实际原因,将数据居中是有利的,例如,在训练神经网络时。

这个想法是,要训练神经网络,需要使用一些基于梯度的方法来解决非凸优化问题。梯度是通过反向传播计算的。现在,这些梯度取决于输入,并且将数据居中消除了梯度中可能存在的偏差。

具体来说,非零均值反映在大特征值中,这意味着梯度在一个方向上往往比其他方向更大(偏差),从而减慢收敛过程,最终导致更差的解决方案。

补充一下 Alecos 所说的非常好,在使用贝叶斯统计或正则化时,将数据集中在零非常重要,因为否则数据可能与截距相关,这使得正则化无法达到您通常想要的效果。

使数据为零均值可以减少协方差矩阵的许多非对角项,因此它使数据更易于解释,系数更直接有意义,因为每个系数更主要地应用于该因子,并且通过与其他因素。