为什么 Q-learning 会收敛到最优策略,即使代理的行为不是最优的?

人工智能 强化学习 q学习 证明 收敛
2021-11-18 12:59:50

在 Q-learning 中,在训练期间,代理如何选择动作并不重要。该算法总是收敛到最优策略。为什么会这样?直觉是什么?

1个回答

Q-learning是一种off-policy学习算法。我们遵循行为政策,b,即ϵ贪婪的。这种行为策略不必是最优策略,而是更可探索的策略。但是我们正在学习目标策略,π,这是状态动作值的argmax(Q(s,a)). 根据定义,该目标策略是最优策略。

来自ϵ-贪婪的策略改进定理我们可以证明对于任何ϵ-贪婪政策(我认为您将其称为非最佳政策)我们仍在朝着最佳政策取得进展,何时π=π这是我们的最优策略(Rich Sutton 的书 Chapter-5)。这里π是新政策和π是之前的政策。 在此处输入图像描述

想想这张图,我们在其中根据以下内容选择操作ϵ-贪婪的政策,但仍在朝着最优政策取得进展π.