体重标准化如何工作?

人工智能 神经网络 深度学习 文件 优化 权重归一化
2021-11-06 00:45:31

我正在阅读关于使用权重归一化改进 ANN 学习的论文权重归一化:加速深度神经网络训练的简单重新参数

他们考虑标准的人工神经网络,其中每个神经元的计算包括输入特征的加权和,然后是元素非线性

y=ϕ(xw+b)

在哪里w是一个k维权重向量,b是一个标量偏差项,x是一个k输入特征的维向量,ϕ()表示逐元素非线性和y表示神经元的标量输出。

然后他们建议重新参数化每个权重向量w就参数向量而言v和一个标量参数g而是对这些参数执行随机梯度下降。

w=gvv

在哪里v是一个k维向量,g是一个标量,并且v表示欧几里得范数v. 他们称之为重新参数化权重归一化

这个标量是什么g用于,它来自哪里?w是标准化的重量?一般来说,权重归一化是如何工作的?它背后的直觉是什么?

1个回答

你的解释非常正确。我不明白它会如何加速收敛。他们所做的基本上是重新分配权重向量的大小(也称为权重向量的范数)。

换个角度来看,任何机器学习成本函数的传统方法不仅是检查误差相对于权重变量(梯度)的变化,还要添加一个归一化项,即λ(w02+w12+). 这有几个优点:

  • 即使您犯了一些错误,权重也不会呈指数级增长(由于学习率选择错误,通常会反弹到指数级成本)。

  • 此外,不知何故,收敛速度更快(可能是因为您现在有两种方法来控制应赋予特征多少权重。不重要的特征权重不仅会因正常梯度而减少,而且还会因归一化项的梯度而减少λ(w02+w12+))。

在本文中,他们提出了固定权重向量的大小。这是一个好方法,虽然我不确定它是否比特征规范化更好。通过将重量的大小限制为g,他们正在修复可用的资源。直觉是,如果你有 24 小时,你必须在科目之间分配这段时间。您将以最大化您的成绩/知识的方式分发它。因此,这可能有助于加快收敛。

另外,另一种直觉是,当您从权重向量中减去梯度时,您使用学习率α. 这取决于您想要给出的误差权重年龄,该误差随后将从权重中减去。在这种方法中,您不仅要减去权重,还要使用另一个学习率g来衡量重量。我称之为g一个学习率,因为您可以自定义它,这反过来又自定义了权重的值,这反过来又影响了权重梯度下降的未来减少。

我相信有人会对这些东西发表更好的数学解释,但这是我能想到的所有直觉。如果能指出其他直觉和数学上的微妙之处,我将不胜感激。希望这可以帮助!