人工智能 - 为什么在这种情况下，基于潜力的奖励塑造似乎会改变最优策略？ - 吾爱随笔录

人工智能强化学习奖励函数奖励塑造潜在的奖励塑造

2021-10-26 08:15:00

众所周知，每个潜在函数都不会改变最优策略 [ 1 ]。我不明白为什么会这样。

定义：

R^{'} = R + F,

$R' = R + F,$ 和

F = γ Φ (s^{'}) - Φ (s),

$F = \gamma\Phi(s') - \Phi(s),$

在哪里，让我们假设， $\gamma = 0.9$ .

如果我有以下设置：

红色路线的奖励是： $(0 + (0.9 * 100 - 0)) + (1 + (0.9 * 0 - 100)) = -9$ .

而蓝色路线的奖励是： $(-1 + 0) + (1 + 0) = 0$ .

所以，对我来说，蓝色路线似乎比最佳红色路线更好，因此最佳策略发生了变化。我这里有错误的想法吗？

1个回答

相同 $\gamma = 0.9$ 您在定义中使用的 $F \doteq \gamma \Phi(s') - \Phi(s)$ 在计算多步轨迹的收益时，也应将其用作折扣因子。因此，与其简单地将不同轨迹的不同时间步长的所有奖励相加，不如将它们打折 $\gamma$ 对于每个过期的时间步。

因此，蓝色路线的回报是：

0 + (0.9 \times - 1) + ({0.9}^{2} \times 0) + ({0.9}^{3} \times 1) = - 0.9 + 0.729 = - 0.171,

$0 + (0.9 \times -1) + (0.9^2 \times 0) + (0.9^3 \times 1) = -0.9 + 0.729 = -0.171,$

红色路线的回报是：

(0 + 0.9 \times 100 - 0) + 0.9 \times (1 + 0.9 \times 0 - 100) = 90 - 89.1 = 0.9.

$(0 + 0.9 \times 100 - 0) + 0.9 \times (1 + 0.9 \times 0 - 100) = 90 - 89.1 = 0.9.$

其它你可能感兴趣的问题