深度学习的牛顿方法优化

数据挖掘 机器学习 优化
2022-02-12 22:36:21

我正在阅读 J. Martens 的这篇论文“ Deep learning via Hessian-free optimization ”,我很难弄清楚以下陈述:

在标准牛顿法中,qθ(p)通过计算优化N×N矩阵B然后解决系统Bp=f(θ).

(论文第 3 节)

关于为什么需要求解上述系统以优化局部近似,是否有任何定理或陈述?我遇到了另一篇提到 J. Martens 并使用了相同声明的论文。

1个回答

如果你看一下第 2 节,它会说

推动牛顿方法的中心思想是f可以围绕每个局部近似θ,直到二阶,由二次方:

f(θ+p)qθ(p)f(θ)+f(θ)Tp+12pTBp(1)
在哪里B=H(θ)是 Hessian 矩阵fθ. 找到一个好的搜索方向然后减少到最小化这个二次关于p.

为了最小化,您需要对 (1) 求导p并将其设置为零:

f(θ)+Bp=0

这相当于Bp=f(θ).