机器学习中使用的优化方法

数据挖掘 机器学习 神经网络 训练
2022-02-28 03:53:47

我在 ML 领域没有太多的知识,但从我天真的观点来看,似乎总是在训练中性网络时使用梯度下降的一些变体。因此,我想知道为什么似乎没有使用更高级的方法,例如 SQP 算法或内点方法。是不是因为训练中性网络总是一个简单的无约束优化问题,而上述方法就没有必要了?任何见解都会很棒,谢谢。

1个回答

在我的回复中

梯度下降总是收敛到最优吗?

解释说标准梯度下降效果很好,因为回溯梯度下降效果很好(在我们最近在帖子中提到的论文中得到证明)并且从长远来看,回溯梯度下降的行为类似于标准梯度下降。

我认为,其他方法的主要问题是它们需要太强的收敛条件,或者根本无法证明收敛。在这两种情况下,这些都使它们不太适用于实际应用。