人工智能 - 在多元线性回归中，这两种用于 z 分数归一化的数值方法中哪一种更可取？ - 吾爱随笔录

在多元线性回归中，这两种用于 z 分数归一化的数值方法中哪一种更可取？

人工智能执行数据预处理

2021-10-20 12:58:59

在 Andrew Ng 的练习练习 3：多元线性回归中，作者建议“按标准差缩放两种类型的输入，并将它们的均值设置为零”。

x_{n e w} = \frac{x - μ}{σ}

$x_{n e w}=\frac{x-\mu}{\sigma}$

方法一

作者提供了以下 Matlab（和 Octave）代码来缩放输入。

x = [ones(m, 1), x];
sigma = std(x);
mu = mean(x);
x(:,2) = (x(:,2) - mu(2))./ sigma(2);
x(:,3) = (x(:,3) - mu(3))./ sigma(3);

方法二

但是为什么不简单地在 0 和 1 之间缩放输入，或者除以最大值呢？

x_range=max(x)
x(:,2) = (x(:,2)/x_range(2));
x(:,3) = (x(:,3)/x_range(3));

我已经用方法 2 完成了练习，这些就是结果。

问题

第一种方法比第二种方法有计算优势吗？

2个回答

不，如果您忽略计算 $\sigma$ 和 $\mu$ .

我们通常使用第一种方法以获得更好的结果。这是因为如果您将数据集分为训练数据和测试数据，那么您可以在两者之间完美地标准化训练数据 $0$ 和 $1$ 通过采取 $max$ 和 $min$ 来自训练数据集。您的算法只会看到之间的数据 $0-1$ ，但无法确保在相同的条件下对测试数据进行规范化 $max$ 和 $min$ 将导致数据介于 $0$ 和 $1$ ..

所以更好的方法是使用高斯分布方法，因为它所做的唯一假设是数据分布是高斯分布，这对于任何现象几乎都是正确的（经过一些可能由 ML 算法处理的函数转换）。我在这里回答了一个类似的问题。

澄清

在直接回答问题之前，有几点需要注意。

范围一词实际上适用于因变量。在输入端，是需要归一化的域。
在第二种方法中，由于最小向量可能不是原点，所以归一化应该包括零阶项。必须从最大值中减去最小值以确定域，并且还必须减去作为独立的预归一化值的偏移量。
标准差总是小于最大值和最小值之差的一半，因此两种方法之间存在比例差异。

问题的症结在于标准化的统计数据及其对这些方法的潜在影响。

多元线性回归（在问题介绍中）
梯度下降（选择为标签）

尽管这两者在技术上并不相互排斥，但实际上，如果线性表示符合 $\vec{y} = a \vec{x} + \vec{b}$ ，在哪里 $a$ 是一个适当尺寸的矩阵 $\vec{x}$ 和 $\vec{y}$ . 对于一阶多项式的情况，有一个封闭的形式（公式）来获得 $(\vec{a}, \vec{b}, c)$ 从一组对 $(\vec{x}, \vec{y})$ ，在哪里 $c$ 是相关系数。使用迭代收敛方法（例如梯度下降）来计算两者关系的一阶多项式模型的均方回归结果是非常浪费的 $\vec{x}$ 和 $\vec{y}$ .

如果模型没有封闭形式或根本没有已知模型，并且要逼近的函数的复杂性相对于可用的收敛方法、可用于训练的数据以及可以计算的计算资源和时间是站得住脚的委派给该任务，然后梯度下降是一种方法，通过该方法可以在最小损失上实现最小二乘收敛。

人工网络的意义在于，通过一系列层的互连，每个层都有一组相似的激活函数，网络可以逼近一个有用的函数，其数学模型尚不清楚。在没有已知封闭形式且收敛方法可能的统计函数逼近问题中，人工网络训练已成为适用于越来越多案例的合适设备。

正常化

均值和标准差的度量是专门为可以用高斯分布近似的数据设计的。归一化一词源于高斯分布是正态的信念，但高斯并不持有这种信念。他将其表示为随机扰动累积的限制所产生的分布，因为随着扰动序列的长度接近无穷大，扰动大小的平方的平均值减小到零。

因此，如果损失（或误差）函数是人工网络的当前输出值与提供准确和正确值的标签之间的差平方和，则输入的接近高斯分布可能会产生更快、更彻底的收敛。在多元情况下，有一个等价的高斯分布。

在现实世界中，非常接近高斯分布的数据分布并不是常态。地球上特定纬度和经度特定月份的地表温度分布反映了温度分布中的两个最大值，一个为夜间，一个为白天。在混沌理论中，这两个最大值与一年中的时间之间的关系模型称为吸引子。积分似乎被这些规范所吸引。

普通电路中的信号幅度分布和空气中的自然声音也不是高斯分布，而是 $\log(P)$ 常见信号和声音的功率接近于高斯分布，这也是为什么分贝是衡量信号强度和响度的常用指标的部分原因。另一部分是计算分贝时的对数导致它们表示功率的相对几何差异（比率），而不是不太具有代表性的算术差异。

归一化通常被过度简化，以确保值落在便于算法数值表示的特定域内，或者在具有给定标准偏差的平均值附近，以提供用于统计分析或相关性的最小二乘策略。然而，数据通常不是对称的并且分布良好。

在地表温度的情况下，夜间分布的标准偏差低于白天分布，因此两个峰在分布中具有不同的相邻斜率。标准化如何反映这一点取决于接收标准化数据的目标和算法。信号功率和响度的归一化策略将包括通过对数运行数据以反映功率值的近似指数高斯分布。

异常值

异常值是超出预期趋势或关系的数据点，或者因为它们在一个或多个测量维度中被错误测量，测量被破坏，它们受到预期研究范围之外的现象的强烈影响，或者代表一个重大但以前未被发现的现象。最后一个原因就是为什么从功能分析中排除和排除所有异常值是不明智的。

当离群值是有效数据点，不方便地与平均值相差几个标准差时，从零到一的归一化会导致该输入域内某个位置的分布峰非常窄。如果异常值是不应该被忽略的类型并且合法地代表正在研究或被控制的现象，那么除了简单的数据的一次多项式转换之外的一些归一化方案被指示。

房屋预测器

在居住空间平方英尺的情况下，数据是不对称的。大房子增加 10 平方米不会产生与小房子增加 10 平方米相同的价格差异。正确配置的神经网络可能会在训练期间学习在前几层执行类似于对数的操作，或者工程师可以明确执行对数以消除数据偏斜并以更接近高斯分布的形式呈现给网络进行训练，然后再用于实际使用。

在出口处，在将网络输出呈现给损失函数之前，应用指数函数也可以产生更快和更可靠的收敛，因为货币单位对不同的购买者具有不同的价值。与购买小房子的人相比，购买大房子的人不太容易因与第四间卧室或更多面积相关的成本而推迟。

概括

不同归一化方法的比较优势取决于许多因素，包括但不限于这些。

用于表示网络中前向和后向信号传播的数据类型的分辨率，它影响信号饱和的条件
用于训练的数据集偏斜
用于训练的数据集中最小值和最大值的标准差数
分布中存在多个吸引子，可能出现在任何特征（输入维度）或它们的组合中

方法一最适合涉及高斯分布的场景，并且可能最适合住房预测。如果分布几乎一直到极端都相对平坦，则方法二可能是最好的。

运行每种方法并比较它们可能会揭示此答案中未预测到的一种或另一种的优势，并且可以通过执行进一步的实验获得有关原因的进一步知识。

其它你可能感兴趣的问题

上一篇遗传算法如何在不断变化的环境中适应并变得更好？下一篇为什么 Q-learning 会收敛到最优策略，即使代理的行为不是最优的？