使用 Hessian 矩阵的逆来自动估计梯度下降中的学习率(攻击参数)背后的直觉。

数据挖掘 梯度下降
2022-02-19 16:36:44

我正在复习一些课程材料,其中讲师建议不要在梯度下降实现中猜测学习率参数,而是可以使用 Hessian 的倒数乘以 Jacobian 的负数来确定步长。

对于使用 Hessian 的倒数背后的直觉的任何帮助将不胜感激。

1个回答

这不是直觉,而是数学。更准确地说,是函数的二次展开。

说你有f(x)=f(xn+Δx)=f(xn)+f(xn)Δx+f(xn)Δx2你想达到一个点f(x)=0,那么你将使用Δx=f(xn)f(xn).

推广到 n 维,f是方程的 Hessian。

所以当然这对于最小二乘非常有效,它只会“工作”接近非二次函数的解决方案。