函数梯度下降示意图

机器算法验证 梯度下降 功能数据分析
2022-03-23 15:38:35

我试图将提升理解为功能空间中的梯度下降(GD)。我遵循了有关该主题的经典论文中的论点,但充其量将我的理解描述为微不足道。打个比方,我做如下陈述。

常规 GD 旨在定位标量值函数的最佳点。函数式 GD 旨在找到函数(在整个定义域上)。从理论上讲,常规 GD 是基于微积分的过程的数值替代品,该过程将导数设置为零并求解结果方程(当然,实际问题并不容易通过这种方式解决)。函数空间中的等效直接过程是找到函数导数并求解得到的欧拉-拉格朗日方程。这就是我们解决等周问题、Brachistochrone 问题、最大熵问题等的方法。

为了进一步了解泛函 GD,我想使用泛函 GD 解决一个简单的变分问题。说,我想找到一条使两点之间的距离最小化的二维曲线。我知道如何使用欧拉拉格朗日来解决这个问题。我想通过看到一个随机选择的函数(服从约束)向直线发展,以数字方式重现这个解决方案。

是否有文本、教程、arXiv 文档、博客、视频或任何其他文档通过简单的示例对函数式 GD 进行了温和的介绍?我的搜索产生了一些学生抄写的讲义,但除了澄清论文中的符号之外,它们并没有多大帮助。

有人可以帮助为一个简单的问题设置一个功能性 GD 吗?我不是要求明确的代码,因为我很高兴自己编写代码。

1个回答

功能梯度下降

函数梯度下降-第1部分第2部分将给出简要介绍和理论说明。Llew Mason、Jonathan Baxter、Peter Bartlett 和 Marcus Frean 在 2000 年的 NIPS 出版物 Boosting Algorithms as Gradient Descent 中介绍了功能梯度下降。

我们都熟悉线性函数的梯度下降f(x)=wTx. 一旦我们定义了损失L, 梯度下降执行以下更新步骤 (η是一个称为学习率的参数。

wwηL(w)

我们在权重空间中移动。损失的一个例子L是:

L(w)=i=1n(yiwTxi)2+λw2

其中第一项(项)衡量的接近程度,而第二项(“正则化”项)说明了学习函数的“复杂性” 。L2f(x)yf

假设我们想将扩展到线性函数之外。我们希望最小化以下内容:Lf

L(f)=i=1n(yif(xi))2+λf2

其中再次用作正则化术语,我们有以下形式的更新:f2

ffηL(f)

我们在函数空间中移动,而不是权重!

事实证明,这是完全可能的!并以函数空间中的“功能”梯度下降或梯度下降的名称命名。

通常,您可以通过多种方式对任何函数进行参数化,每种参数化都会在梯度下降中产生不同的步骤(以及每一步的不同函数)。

优点是一些参数化时非凸的损失函数在函数空间中可以是凸的:这意味着当“普通”梯度下降可能卡在局部最小值或鞍点时,函数梯度下降实际上可以收敛到全局最小值.

插图示例

代码

更多

  • 为什么函数梯度下降很有用,
  • 进行功能梯度下降意味着什么,以及,
  • 我们如何做函数梯度下降,举个例子。

访问