为什么在这种情况下,基于潜力的奖励塑造似乎会改变最优策略?

人工智能 强化学习 奖励函数 奖励塑造 潜在的奖励塑造
2021-10-26 08:15:00

众所周知,每个潜在函数都不会改变最优策略 [ 1 ]。我不明白为什么会这样。

定义:

R=R+F,
F=γΦ(s)Φ(s),

在哪里,让我们假设,γ=0.9.

如果我有以下设置:

  • 左边是我的R.
  • 右边是我的潜在功能Φ(s)
  • 左上是开始状态,右上是目标状态

在此处输入图像描述

红色路线的奖励是:(0+(0.91000))+(1+(0.90100))=9.

而蓝色路线的奖励是:(1+0)+(1+0)=0.

所以,对我来说,蓝色路线似乎比最佳红色路线更好,因此最佳策略发生了变化。我这里有错误的想法吗?

1个回答

相同γ=0.9您在定义中使用的FγΦ(s)Φ(s)在计算多步轨迹的收益时,也应将其用作折扣因子。因此,与其简单地将不同轨迹的不同时间步长的所有奖励相加,不如将它们打折γ对于每个过期的时间步。

因此,蓝色路线的回报是:

0+(0.9×1)+(0.92×0)+(0.93×1)=0.9+0.729=0.171,

红色路线的回报是:

(0+0.9×1000)+0.9×(1+0.9×0100)=9089.1=0.9.