非负数据减去平均值并除以标准偏差是否有意义?

机器算法验证 标准差 意思是 正常化 图像处理
2022-04-20 02:49:51

在一组数据中减去平均值并除以标准差是一个非常常见的过程。如果我们处理非负数据,即图像,(在 [0,1] 或 [0,255] 中),这个过程是否有意义?违反非负约束,会发生什么?

我添加了一些进一步的考虑。

假设您有一张图像,并将其分解为一组重叠的补丁。为什么要为每个补丁减去平均值并除以标准差(违反非负先验)?

此过程也用于字典学习和稀疏编码。在字典学习中,给定图像 ( ),标准方法是将其划分为一组补丁 ( ),然后减去均值 ( ) 并除以标准偏差 ( )。yppmps

如果数据是非负的,这是一个关键的步骤吗?

2个回答

首先,已经有几个关于标准化的问题,例如

减去平均值是使数据居中的一种方法:平均值成为数据“点云描述”中的新原点(每种情况都是维中的一个点,对于 RGB 图像,)。正确居中的数据可以导致数值上更稳定的模型,并且居中还可以帮助解释数据和模型:它设置了“基线”,并且居中的数据记录了与此的偏差。 这是否是一个明智的想法取决于您的数据:对于某些数据,它确实有意义,对于其他数据,另一个中心可能更合适,但其他数据集确实已经有一个有用的中心。例如,在星空照片的示例中,您可能想要找出平均背景颜色并将其减去。 pp=3

除以标准偏差(或方差)使数据标准化这对于在后续数据分析中实现所有输入通道的相同权重很有用。在其他情况下,这是不明智的。后者很可能是您的数据的情况:您的变量已经共享它们的物理单元。但是,您可能需要校准它们以校正相机灵敏度的波长依赖性(白光校正)。

您可能还想同时调整所有通道:这将调整对比度和亮度,这也是一种居中和标准化的方式。

由于您提到稀疏编码,我假设您指的是自然图像。

对于自然图像,通常会进行标准化,因为一旦减去常数部分(并将它们变白;见下文),自然图像块具有相当稳定的统计特性。你可以这样看:一个自然图像有一个平均亮度(块的平均值)和一个对比度(块的标准偏差)。如果您对补丁的内容感兴趣,那么最好减去平均亮度并除以对比度以将所有具有相同内容的图像补丁映射到同一点上。p

自然图像块在减去平均值(通常也称为 DC 分量)后具有相当稳定的统计特性。作为参考,您可以查看 David Field、Bruno Olshausen、David Ruderman、Eero Simoncelli、Matthias Bethge 或 Aapo Hyvaerinen 的论文。有趣的是,DC 分量的统计数据因图像而异(如果您从一张图像中采样许多块),但块的统计特性相当稳定。对于白化补丁尤其如此,即当您除以 PCA 基础中的标准偏差时(白化矩阵不是唯一的,但 PCA 版本是一种可能的选择)。请注意,许多稀疏编码模型实际上是在 DC 减法和白化的自然图像块上训练的。

简而言之:对于自然图像,您喜欢进行标准化,因为适合标准化补丁的概率模型可以更好地在图像之间进行泛化。