数据挖掘 - 深度学习的牛顿方法优化 - 吾爱随笔录

深度学习的牛顿方法优化

数据挖掘机器学习优化

2022-02-12 22:36:21

我正在阅读 J. Martens 的这篇论文“ Deep learning via Hessian-free optimization ”，我很难弄清楚以下陈述：

在标准牛顿法中， $q_{\theta}(p)$ 通过计算优化 $N\times N$ 矩阵 $B$ 然后解决系统 $Bp = −\nabla f(\theta)$ .

_{（论文第 3 节）}

关于为什么需要求解上述系统以优化局部近似，是否有任何定理或陈述？我遇到了另一篇提到 J. Martens 并使用了相同声明的论文。

1个回答

如果你看一下第 2 节，它会说

推动牛顿方法的中心思想是 $f$ 可以围绕每个局部近似 $\theta$ ，直到二阶，由二次方：
$f (θ + p) \approx q_{θ} (p) \equiv f (θ) + \nabla f (θ)^{T} p + \frac{1}{2} p^{T} B p (1)$ $f(\theta + p) \approx q_\theta(p) \equiv f(\theta) + \nabla f(\theta)^Tp + \frac{1}{2} p^TBp \, \, (1)$ 在哪里 $B = H(\theta)$ 是 Hessian 矩阵 $f$ 在 $\theta$ . 找到一个好的搜索方向然后减少到最小化这个二次关于 $p$ .

为了最小化，您需要对 (1) 求导 $p$ 并将其设置为零：

\Rightarrow \nabla f (θ) + B p = 0

$\Rightarrow \nabla f(\theta) + Bp = 0$

这相当于 $Bp = -\nabla f(\theta)$ .

其它你可能感兴趣的问题

上一篇在 GPU 中训练后使用 CPU 下一篇如何检测不同品牌的牛奶