ReLU 函数如何导致收敛?

数据挖掘 深度学习 梯度下降 激活函数
2022-02-27 00:21:20

梯度下降算法基于这样一个事实,即梯度随着我们向最佳点移动而减小。然而,在ReLU函数的激活中,梯度是恒定的,不会随着输入的变化而变化。

我不清楚这将如何最终导致收敛。如果您能用数学推导来解释这一点,我将不胜感激。谢谢

2个回答

ReLU 并不是唯一应用于数据以产生输出的函数。每一层都是最后一层的线性变换,后面是RELU。即使一切都是负数并且 ReLU 对梯度没有贡献,关于所有模型权重的梯度几乎肯定会是非零的,除非你已经收敛到一个临界点。

简短回答:在更新机器学习架构的权重(或参数)时,您会沿着应用于经验数据和模型预测数据的损失函数的梯度移动。随着 epoch 数量的增加,这个梯度可以(并且希望会,但不是必须)减小,因此训练会继续进行。


例子。考虑一个最简单的“机器学习”问题:给定一组点

S={(x1,y1),(x2,y2),,(xN,yN)}R2,NN,

我们想找到这些点的最佳拟合线,即我们想找到m,bR这样

fm,b:RR,fm,b(x)=mx+b

最小化二次损失

L(m,b;S)=k=1N(fm,b(xk)yk)2.

现在,请注意,对于固定S,L是一个凸函数(实际上我没有检查过这个,如果我在这里弄错了,请告诉我)并且,你可以检查一下,如果存在一个最小化器(m,b)L,然后“梯度下降”将收敛到这个最小化器(请注意,我的公式中有一个不幸的错误导致最小化器并不总是存在:这个错误发生在最佳拟合是一条垂直线时,不能表示为y=mx+b)。

请注意,如果您以gm,b=Relu(mx+b), 即使两者的梯度Relumx+b不必收敛到0当我们收敛到最小化器时。


更一般地说,在损失函数如何作用于权重的某些假设下(请参阅此处的定理 2.2 ),如果存在,梯度下降将始终收敛到最小化。