数据挖掘 - ReLU 函数如何导致收敛？ - 吾爱随笔录

ReLU 函数如何导致收敛？

数据挖掘深度学习梯度下降激活函数

2022-02-27 00:21:20

梯度下降算法基于这样一个事实，即梯度随着我们向最佳点移动而减小。然而，在ReLU函数的激活中，梯度是恒定的，不会随着输入的变化而变化。

我不清楚这将如何最终导致收敛。如果您能用数学推导来解释这一点，我将不胜感激。谢谢

2个回答

ReLU 并不是唯一应用于数据以产生输出的函数。每一层都是最后一层的线性变换，后面是RELU。即使一切都是负数并且 ReLU 对梯度没有贡献，关于所有模型权重的梯度几乎肯定会是非零的，除非你已经收敛到一个临界点。

简短回答：在更新机器学习架构的权重（或参数）时，您会沿着应用于经验数据和模型预测数据的损失函数的梯度移动。随着 epoch 数量的增加，这个梯度可以（并且希望会，但不是必须）减小，因此训练会继续进行。

例子。考虑一个最简单的“机器学习”问题：给定一组点

S = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})} \subset R^{2}, N \in N,

$S=\{(x_1,y_1),(x_2,y_2),\dots, (x_N, y_N)\}\subset \mathbb R^2, N\in\mathbb N,$

我们想找到这些点的最佳拟合线，即我们想找到 $m,b\in\mathbb R$ 这样

f_{m, b} : R \to R, f_{m, b} (x) = m x + b

$f_{m,b}:\mathbb R\to\mathbb R, f_{m,b}(x)=mx+b$

最小化二次损失

L (m, b; S) = \sum_{k = 1}^{N} (f_{m, b} (x_{k}) - y_{k})^{2} .

$\mathcal L(m,b;S)=\sum_{k=1}^N (f_{m,b}(x_k)-y_k)^2.$

现在，请注意，对于固定 $S$ , $\mathcal L$ 是一个凸函数（实际上我没有检查过这个，如果我在这里弄错了，请告诉我）并且，你可以检查一下，如果存在一个最小化器 $(m^*,b^*)$ 的 $\mathcal L$ ，然后“梯度下降”将收敛到这个最小化器（请注意，我的公式中有一个不幸的错误导致最小化器并不总是存在：这个错误发生在最佳拟合是一条垂直线时，不能表示为 $y=mx+b$ ）。

请注意，如果您以 $g_{m,b}=\operatorname{Relu}(mx+b)$ , 即使两者的梯度 $\operatorname{Relu}$ 和 $mx+b$ 不必收敛到 $0$ 当我们收敛到最小化器时。

更一般地说，在损失函数如何作用于权重的某些假设下（请参阅此处的定理 2.2 ），如果存在，梯度下降将始终收敛到最小化。

其它你可能感兴趣的问题

上一篇是否有一个基于输入数量的 NN 应该有多少层的一般规则？下一篇获得运行 scikit 的结果和概率学习随机森林