机器算法验证 - 在 GD 优化中，如果误差函数的梯度与权重有关，那么目标值不会因为它是一个单独的常数而下降吗？ - 吾爱随笔录 - 问答

在 GD 优化中，如果误差函数的梯度与权重有关，那么目标值不会因为它是一个单独的常数而下降吗？

机器算法验证神经网络梯度下降坡度逆问题自动分化

2022-03-28 20:26:54

假设我们将绝对差作为误差函数：

$\mathit{loss}(w) = |m_x(w) - t|$

在哪里 $m_x$ 只是一些带有输入的模型 $x$ 和重量设置 $w$ ，和 $t$ 是目标值。

在梯度下降优化中，最初的想法是取损失函数的梯度，并更新 $w$ 如下：

$w = w - \alpha\cdot\nabla \mathit{loss}(w)$

在哪里 $\alpha$ 是学习率。在我们的例子中，损失函数的梯度不是：

$\nabla \mathit{loss}(w) = \nabla m_x(w)$

在哪里 $t$ 被丢弃是因为它是一个常数？我觉得我在这里错过了一个巨大的关键点。

2个回答

如果我们将绝对差异视为一个规范，那就是：

$loss(w) = |m_x(w) - t|$

然后 $\nabla loss(w)$ 远非简单地等同于 $\nabla m_x(w)$ .

通过定义绝对值的导数（并使用链式法则），我们实际上得到：

$\nabla loss(w) = \frac{m_x(w) - t}{|m_x(w) - t|}. m_x'(w)$

这与 Aksakal 的回答相似，但我想确切说明我们得到的原因 $\pm m_x'(w)$

不，一个适当的规范不会允许它存在。

即使是最简单的绝对值函数作为损失也将取决于 $t$ ： $|m(w)-t|’=\pm m’(w)$ ，这里的符号取决于 $t$ .

TL;博士; 通常，您的损失函数将是 $L(w|t,X)$ , 所以一阶导数是 $\partial L(w|t,X)/\partial w$ ，并且没有理由 $t$ 从表达式中消失，除非你构造 $L$ 仅用于此目的，例如您使 $L$ 严格线性 $w$ . 然而， $L$ 不能只是您暗示的问题中的任何功能，即您有目标要命中的地方。

显然，损失不能是负数，因为在这类问题中你能做的最好的事情就是击中一个目标，那么就没有损失，即 $L(w^*)=0$ . 这意味着无论您选择什么损失函数，它都必须在最优值附近是非线性的 $w^*$ . 上面的绝对值范数的例子表明，即使是完全线性的损失函数 $w$ 无处不在，但在某一点上仍将取决于 $t$ .

其它你可能感兴趣的问题

上一篇堆积条形图下一篇是否可以使用 shapiro.test 通过将测试应用于子样本来测试大于 5,000 个数据点的样本的正态性？