众所周知,每个潜在函数都不会改变最优策略 [ 1 ]。我不明白为什么会这样。
定义:
和
在哪里,让我们假设,.
如果我有以下设置:
- 左边是我的.
- 右边是我的潜在功能
- 左上是开始状态,右上是目标状态
红色路线的奖励是:.
而蓝色路线的奖励是:.
所以,对我来说,蓝色路线似乎比最佳红色路线更好,因此最佳策略发生了变化。我这里有错误的想法吗?
众所周知,每个潜在函数都不会改变最优策略 [ 1 ]。我不明白为什么会这样。
定义:
和
在哪里,让我们假设,.
如果我有以下设置:
红色路线的奖励是:.
而蓝色路线的奖励是:.
所以,对我来说,蓝色路线似乎比最佳红色路线更好,因此最佳策略发生了变化。我这里有错误的想法吗?
相同您在定义中使用的在计算多步轨迹的收益时,也应将其用作折扣因子。因此,与其简单地将不同轨迹的不同时间步长的所有奖励相加,不如将它们打折对于每个过期的时间步。
因此,蓝色路线的回报是:
红色路线的回报是: