我是机器学习的初学者,我正在寻找一些梯度下降的优化器。我已经搜索了很多关于此的主题,并对所有这些优化器进行了最先进的处理。我只有一个问题,我想不通。请不要评判我,但我想知道?
我们是单独使用 ADAM 优化器还是必须将其与 SGD 结合使用?我不明白它是单独工作还是在这里优化不是神经网络而是神经网络的SGD?
感谢您的帮助!
我是机器学习的初学者,我正在寻找一些梯度下降的优化器。我已经搜索了很多关于此的主题,并对所有这些优化器进行了最先进的处理。我只有一个问题,我想不通。请不要评判我,但我想知道?
我们是单独使用 ADAM 优化器还是必须将其与 SGD 结合使用?我不明白它是单独工作还是在这里优化不是神经网络而是神经网络的SGD?
感谢您的帮助!
Adam 优化是随机梯度下降 (SGD) 优化的扩展。
SGD 为所有权重更新保持单一学习率,并且学习率在训练期间不会改变。
亚当优化可以对每个权重有不同的学习率,并在训练期间改变学习率。