https://stackoverflow.com/questions/36162180/gradient-descent-vs-adagrad-vs-momentum-in-tensorflow
在这里,漂亮的 gif 图像解释了不同的算法是如何接近根的。不幸的是,gif 中的环境过于简单,而实际案例的环境要复杂得多。此外,在强化学习中,由于事情是动态的,因此在足够困难的环境中,解决方案应该每时每刻都在变化。
我的问题是,在这种动态变化的环境中,哪种优化器最适合强化学习?Adadelta 不应该超出局部最小值,所以我们是否必须使用 SGD 或 Adadelta 进行探索启发式?请详细告诉我你的想法。