在这篇关于机器学习深度学习的论文中,该方法被称为无 Hessian 方法。这是因为 Hessian 从未明确计算过。相反,Hessian 和向量的乘积是使用有限差分逼近获得的。共轭梯度步骤使用它来计算牛顿方向。一旦获得“足够好”的方向,共轭梯度运行的迭代次数就会被截断。该论文将这种截断作为无 Hessian 方法的一个方面。但是,这不是截断牛顿法吗?看起来这篇论文将无 Hessian 与截断牛顿法相结合。
无 Hessian 和截断牛顿法
计算科学
线性代数
优化
数值分析
牛顿法
共轭梯度
2021-12-03 21:49:52
1个回答
看起来这篇论文将无 Hessian 与截断牛顿法相结合。
是的。
...该方法称为无 Hessian 方法。这是因为 Hessian 从未明确计算过。相反,Hessian 和向量的乘积是使用有限差分逼近获得的。
正确的。此步骤类似于无雅可比 Newton-Krylov 方法的“无雅可比”一半。
共轭梯度步骤使用它来计算牛顿方向。
正确的。
一旦获得“足够好”的方向,共轭梯度运行的迭代次数就会被截断。该论文将这种截断作为无 Hessian 方法的一个方面。但是,这不是截断牛顿法吗?
是的。您说得对,论文第 3 节中的讨论令人困惑。作者结合了两件事:
- “不精确”或“截断”(准)牛顿方法将使用迭代求解器不精确地求解(准)牛顿方法中的线性方程组。在本文中,作者使用的是共轭梯度(CG)方法。这种方法需要 Hessian 向量积(或者,为了求解非线性方程,需要雅可比矩阵向量积)。人们可以精确地或近似地计算这个矩阵向量乘积。
- 优化中的“无 Hessian”方法(分别为求解非线性方程的“无雅可比”方法)使用有限差分评估逼近 Hessian 向量积(分别为雅可比矩阵向量积)。
- 因此,通常,人们在截断牛顿法中使用无 Hessian 方法,但您也可以轻松地使用截断牛顿法和精确的 Hessian 向量积。本文选择将无Hessian方法与截断牛顿法相结合,是一个合理的选择。