在 Q-learning 中,在训练期间,代理如何选择动作并不重要。该算法总是收敛到最优策略。为什么会这样?直觉是什么?
为什么 Q-learning 会收敛到最优策略,即使代理的行为不是最优的?
人工智能
强化学习
q学习
证明
收敛
2021-11-18 12:59:50
在 Q-learning 中,在训练期间,代理如何选择动作并不重要。该算法总是收敛到最优策略。为什么会这样?直觉是什么?