我正在研究单隐藏层神经网络的梯度下降算法。假设我有一个初始数据集,然后我使用均值归一化来缩放特征。
为什么在数学上归一化特征携带与初始特征相同的信息?
我正在研究单隐藏层神经网络的梯度下降算法。假设我有一个初始数据集,然后我使用均值归一化来缩放特征。
为什么在数学上归一化特征携带与初始特征相同的信息?
我假设通过mean normalization,您的意思是通过减去均值并除以标准差来缩放每个特征:
其中是一个特征。
即使您正在更改的所有值,它们每个都按相同的量进行缩放 - 最初,平移一个常数(减去平均值),然后按一个常数缩放(除以标准偏差)。
make_blobs
这是使用 scikit-learn 的函数(左)和使用上述和坐标等式(右)的缩放版本生成的二维随机生成数据集:
每个点的值和值都发生了变化,但它们相对于彼此仍然位于相同的位置。如果你仔细观察,你会发现数据的结构是相同的,即使它已经被缩放了一点,你可以通过简单地“放大”数据回到看起来更像原始的东西。因为数据的结构是相同的,所以我们说没有信息丢失。
现在考虑一个转换,我们只取值,并将所有值设置为:
数据的结构发生了变化,没有办法通过统一缩放或拉伸空间来恢复原始数据,所以我们说信息在这里丢失了。这是一个极端的例子,但希望它能说明这一点。
考虑它的一种方法是考虑分类器在转换后区分类别是否或多或少是困难的。在第一种情况下,我们可以用原始数据或归一化数据轻松地绘制一条完美分隔两个集群的线,但在第二种情况下,没有这条线可以分隔转换后的数据。
顺便说一句,如果您对每个示例而不是每个特征进行规范化(如您的评论中所要求的),对于这些数据,您最终会得到如下所示的内容:
所有点都落在或上。这是有道理的,因为标准化使值的范围从到。当只有两个维度时,其中一个必须变为,另一个必须变为。希望信息在这里丢失是相当明显的,并且这样做通常不是一个好主意。
这是一个相当随意的解释,并没有真正涵盖任何实际的信息论概念,但希望它能给你一些直觉。如果您想更深入地研究事物的数学方面,请查看 Wikipedia 中有关信息论的文章。