什么是广义策略迭代?

人工智能 强化学习 定义 价值迭代 政策迭代
2021-11-08 06:59:34

我现在正在阅读 Sutton 和 Barto 的资料。我知道值迭代,这是一种取相邻状态最大值的迭代算法,以及策略迭代。但什么是广义策略迭代?

1个回答

在 Sutton 和 Barto 的书中介绍的标准策略迭代算法中,您在策略评估 (PE) 步骤和策略改进 (PI) 步骤(即 PE、PI、PE、PI、PE、PI、PE、... )。但是,一般来说,您不必严格遵循这种交替来收敛(在极限内)到最优策略。例如,值迭代 (VI) 是截断策略迭代的一个示例,它仍然会收敛到最优策略。

广义策略迭代(GPI)是指所有基于策略迭代的算法,例如值迭代,以某种顺序交替PI 和 PE,并保证收敛到最优策略,前提是 PE 和 PI 执行足够多的次数.