无 Hessian 和截断牛顿法

计算科学 线性代数 优化 数值分析 牛顿法 共轭梯度
2021-12-03 21:49:52

在这篇关于机器学习深度学习的论文中,该方法被称为无 Hessian 方法。这是因为 Hessian 从未明确计算过。相反,Hessian 和向量的乘积是使用有限差分逼近获得的。共轭梯度步骤使用它来计算牛顿方向。一旦获得“足够好”的方向,共轭梯度运行的迭代次数就会被截断。该论文将这种截断作为无 Hessian 方法的一个方面。但是,这不是截断牛顿法吗?看起来这篇论文将无 Hessian 与截断牛顿法相结合。

1个回答

看起来这篇论文将无 Hessian 与截断牛顿法相结合。

是的。

...该方法称为无 Hessian 方法。这是因为 Hessian 从未明确计算过。相反,Hessian 和向量的乘积是使用有限差分逼近获得的。

正确的。此步骤类似于无雅可比 Newton-Krylov 方法的“无雅可比”一半。

共轭梯度步骤使用它来计算牛顿方向。

正确的。

一旦获得“足够好”的方向,共轭梯度运行的迭代次数就会被截断。该论文将这种截断作为无 Hessian 方法的一个方面。但是,这不是截断牛顿法吗?

是的。您说得对,论文第 3 节中的讨论令人困惑。作者结合了两件事:

  • “不精确”或“截断”(准)牛顿方法将使用迭代求解器不精确地求解(准)牛顿方法中的线性方程组。在本文中,作者使用的是共轭梯度(CG)方法。这种方法需要 Hessian 向量积(或者,为了求解非线性方程,需要雅可比矩阵向量积)。人们可以精确地或近似地计算这个矩阵向量乘积。
  • 优化中的“无 Hessian”方法(分别为求解非线性方程的“无雅可比”方法)使用有限差分评估逼近 Hessian 向量积(分别为雅可比矩阵向量积)。
  • 因此,通常,人们在截断牛顿法中使用无 Hessian 方法,但您也可以轻松地使用截断牛顿法和精确的 Hessian 向量积。本文选择将无Hessian方法与截断牛顿法相结合,是一个合理的选择。