人工智能 - 为什么 Q-learning 会收敛到最优策略，即使代理的行为不是最优的？ - 吾爱随笔录

为什么 Q-learning 会收敛到最优策略，即使代理的行为不是最优的？

人工智能强化学习 q学习证明收敛

2021-11-18 12:59:50

在 Q-learning 中，在训练期间，代理如何选择动作并不重要。该算法总是收敛到最优策略。为什么会这样？直觉是什么？

1个回答

Q-learning是一种off-policy学习算法。我们遵循行为政策， $b$ ，即 $\epsilon-$ 贪婪的。这种行为策略不必是最优策略，而是更可探索的策略。但是我们正在学习目标策略， $\pi$ ，这是状态动作值的argmax $(Q(s,a))$ . 根据定义，该目标策略是最优策略。

来自 $\epsilon$ -贪婪的策略改进定理我们可以证明对于任何 $\epsilon$ -贪婪政策（我认为您将其称为非最佳政策）我们仍在朝着最佳政策取得进展，何时 $\pi^{'}$ = $\pi$ 这是我们的最优策略（Rich Sutton 的书 Chapter-5）。这里 $\pi^{'}$ 是新政策和 $\pi$ 是之前的政策。

想想这张图，我们在其中根据以下内容选择操作 $\epsilon$ -贪婪的政策，但仍在朝着最优政策取得进展 $\pi_*$ .

其它你可能感兴趣的问题

上一篇在多元线性回归中，这两种用于 z 分数归一化的数值方法中哪一种更可取？下一篇值迭代算法的时间复杂度是多少？