在线反向传播迭代是否垂直于约束?

人工智能 反向传播 数学 梯度下降
2021-10-18 07:32:15

Raul Rojas 的神经网络系统介绍,第 8.1.2 节将离线反向传播和在线反向传播与 Gauss-Jacobi 和 Gauss-Seidel 方法联系起来,以找到两条线的交点。

我无法理解的是在线反向传播的迭代如何垂直于(当前)约束。更具体地说,如何12(x1w1+x2w2y)2的梯度,(x1,x2), 垂直于约束x1w1+x2w2=y?

2个回答

Theo Bandit 在 maths stackexchange 上的回答

如果选择两点(w1,w2),(v1,v2)沿着这条线,那么

(x1,x2)((w1,w2)(v1,v2))=x1w1+x2w2(x1v1+x2v2)=yy=0.
也就是方向(x1,x2)垂直于沿线的任何向量,即(x1,x2)是正常的线。

方程12(x1w1+x2w2y)2被称为Error(E)(假设y是连续的,这在分类器的情况下不是这样)。如果你在物理或数学中写下这个方程,它代表 4D 曲线族(曲线是连续的,但为了可视化,我们假设它是曲线族)。

这是一个有代表性的方程式,如果错误是12(x1w1y)23D 曲线。

在此处输入图像描述

这是一个标量,表示不同位置的误差值对于不同的值w1w2. 现在标量的梯度定义为F, 在哪里F是一个标量,在做这个操作时你会得到一个向量,它垂直于等势或更合适的等误差表面,即如果你追踪所有给出相同误差的点,你会得到一条曲线,它的任何点的梯度是垂直于该给定点的曲线的向量。这有很多证明,但这里有一个非常简单且很好的证明

现在让我们看看约束方程x1w1+x2w2=y. 在 3D 误差曲线的情况下,约束为我们提供了一个平面,该平面给定点处的等误差曲面的切平面平行。您可以查看如何找到切平面并自己推导出平面的这种方法,其中z=Error(E)w1y是你的xy.

因此很明显,梯度将垂直于约束,这就是我们使用梯度的原因,因为根据数学,如果您沿垂直于等势面的方向移动,您将获得比任何其他方向的最大变化相同的dl移动。

我强烈建议您查看可汗学院的渐变视频这有望让您更直观地了解我们为什么要在神经网络中做这些事情。