“准牛顿方法与梯度下降”的收敛率是否存在“不言而喻的权衡”?
作为一个快速总结:
基于梯度下降的算法试图通过重复使用从一阶导数获得的信息来找到它们正在优化的函数的最小值
拟牛顿方法(例如 BFGS)试图通过重复使用/近似从二阶导数获得的信息来找到函数的最小值
因此,相信对于完全相同的(凸)函数,与拟牛顿方法相比,梯度下降平均每次迭代需要更少的计算,这几乎是一个合乎逻辑的结论。
但是本着“权衡”的精神——与基于梯度下降的算法相比,是否有任何理论结果表明准牛顿方法获得了更强的收敛速度?
例如,由于关于二阶导数的信息为优化算法提供了关于函数局部曲率的额外知识——理论上,与仅关于一阶导数的信息相比,我们预计这种额外的知识将“更好地引导”优化算法到最小值(尤其是在高维函数中)。或者,与一阶导数信息相比,准牛顿方法获得的这种额外的二阶导数信息通常可以忽略不计,因此,与梯度下降相比,准牛顿方法获得的一般“收敛强度”没有?
因此:是否有任何理论结果可以比较准牛顿方法与基于梯度下降的算法的“收敛强度”?