人工智能 - 与多个最优策略相关联的唯一值函数示例 - 吾爱随笔录

与多个最优策略相关联的唯一值函数示例

人工智能强化学习政策价值函数最优策略

2021-10-25 12:38:22

在http://www.incompleteideas.net/book/ebook/node37.html的第 4 段中提到：

尽管状态和状态-动作对的最优值函数对于给定的 MDP 是唯一的，但可以有许多最优策略

你能否给我一个简单的例子，展示考虑独特价值函数的不同最优策略？

1个回答

考虑一个非常简单的网格世界，由 4 个单元组成，其中代理从左下角开始，具有向北/东/南/西移动的动作，并获得奖励 $R = 1$ 到达右上角，这是一个终端状态。我们将命名四个单元格 $NW$ , $NE$ , $SW$ 和 $SE$ （用于西北、东北、西南和东南）。我们将采取折扣因素 $\gamma = 0.9$ .

初始位置是 $SW$ , 目标是 $NE$ ，最优策略应该尽快达到。但是，对于起始状态有两个最优策略 $SW$ : 我们可以先向北，然后向东（即， $SW \rightarrow NW \rightarrow NE$ ），或者我们可以先向东，然后向北（即， $SW \rightarrow SE \rightarrow NE$ ）。这两个策略都是最优的，都分两步达到目标状态并获得 $\gamma \times 1 = 0.9$ ，但它们显然是不同的策略，它们为初始状态选择不同的动作。

请注意，在谈论“起始状态的政策”时，我的语言在上面略显非正式。形式上，我应该说有两种最优策略可以在起始状态中选择不同的动作（以及在所有其他状态中选择相同的动作）。

其它你可能感兴趣的问题

上一篇优化未知标签的图像识别结果下一篇如何训练 CNN