我正在复习一些课程材料,其中讲师建议不要在梯度下降实现中猜测学习率参数,而是可以使用 Hessian 的倒数乘以 Jacobian 的负数来确定步长。
对于使用 Hessian 的倒数背后的直觉的任何帮助将不胜感激。
我正在复习一些课程材料,其中讲师建议不要在梯度下降实现中猜测学习率参数,而是可以使用 Hessian 的倒数乘以 Jacobian 的负数来确定步长。
对于使用 Hessian 的倒数背后的直觉的任何帮助将不胜感激。
这不是直觉,而是数学。更准确地说,是函数的二次展开。
说你有你想达到一个点,那么你将使用.
推广到 n 维,是方程的 Hessian。
所以当然这对于最小二乘非常有效,它只会“工作”接近非二次函数的解决方案。