人工智能 - 什么是广义策略迭代？ - 吾爱随笔录

什么是广义策略迭代？

人工智能强化学习定义价值迭代政策迭代

2021-11-08 06:59:34

我现在正在阅读 Sutton 和 Barto 的资料。我知道值迭代，这是一种取相邻状态最大值的迭代算法，以及策略迭代。但什么是广义策略迭代？

1个回答

在 Sutton 和 Barto 的书中介绍的标准策略迭代算法中，您在策略评估 (PE) 步骤和策略改进 (PI) 步骤（即 PE、PI、PE、PI、PE、PI、PE、... ）。但是，一般来说，您不必严格遵循这种交替来收敛（在极限内）到最优策略。例如，值迭代 (VI) 是截断策略迭代的一个示例，它仍然会收敛到最优策略。

广义策略迭代(GPI)是指所有基于策略迭代的算法，例如值迭代，以某种顺序交替PI 和 PE，并保证收敛到最优策略，前提是 PE 和 PI 执行足够多的次数.

其它你可能感兴趣的问题

上一篇为什么研究具有有限状态和动作空间的 MDP 有意义？下一篇强化学习中的情节和非情节领域是什么？