我正在阅读 J. Martens 的这篇论文“ Deep learning via Hessian-free optimization ”,我很难弄清楚以下陈述:
在标准牛顿法中,通过计算优化矩阵然后解决系统.
(论文第 3 节)
关于为什么需要求解上述系统以优化局部近似,是否有任何定理或陈述?我遇到了另一篇提到 J. Martens 并使用了相同声明的论文。
我正在阅读 J. Martens 的这篇论文“ Deep learning via Hessian-free optimization ”,我很难弄清楚以下陈述:
在标准牛顿法中,通过计算优化矩阵然后解决系统.
(论文第 3 节)
关于为什么需要求解上述系统以优化局部近似,是否有任何定理或陈述?我遇到了另一篇提到 J. Martens 并使用了相同声明的论文。
如果你看一下第 2 节,它会说
推动牛顿方法的中心思想是可以围绕每个局部近似,直到二阶,由二次方:
在哪里是 Hessian 矩阵在. 找到一个好的搜索方向然后减少到最小化这个二次关于.
为了最小化,您需要对 (1) 求导并将其设置为零:
这相当于.