与多个最优策略相关联的唯一值函数示例

人工智能 强化学习 政策 价值函数 最优策略
2021-10-25 12:38:22

在http://www.incompleteideas.net/book/ebook/node37.html的第 4 段中 提到:

尽管状态和状态-动作对的最优值函数对于给定的 MDP 是唯一的,但可以有许多最优策略

你能否给我一个简单的例子,展示考虑独特价值函数的不同最优策略?

1个回答

考虑一个非常简单的网格世界,由 4 个单元组成,其中代理从左下角开始,具有向北/东/南/西移动的动作,并获得奖励R=1到达右上角,这是一个终端状态。我们将命名四个单元格NW,NE,SWSE(用于西北、东北、西南和东南)。我们将采取折扣因素γ=0.9.

初始位置是SW, 目标是NE,最优策略应该尽快达到。但是,对于起始状态有两个最优策略SW: 我们可以先向北,然后向东(即,SWNWNE),或者我们可以先向东,然后向北(即,SWSENE)。这两个策略都是最优的,都分两步达到目标状态并获得γ×1=0.9,但它们显然是不同的策略,它们为初始状态选择不同的动作。

请注意,在谈论“起始状态的政策”时,我的语言在上面略显非正式。形式上,我应该说有两种最优策略可以在起始状态中选择不同的动作(以及在所有其他状态中选择相同的动作)。