给所有奖励添加一个常数会改变情节任务中的最优策略集吗?

人工智能 强化学习
2021-10-26 02:39:43

我正在参加关于强化学习的 Coursera 课程学习材料中没有解决一个问题:向所有奖励添加一个常数会改变情节任务中的最优策略集吗?

答案是肯定的——在奖励信号中添加一个常数可以使较长的情节或多或少有利(取决于常数是正数还是负数)。

谁能解释为什么会这样?为什么在连续(非偶发)任务的情况下它不会改变?我不明白为什么添加一个常数很重要——因为最优策略仍然希望获得最大的奖励......

谁能举个例子?

1个回答

一般我们可以写为Rc增加常数的总奖励c作为一项政策

Rc=i=0K(ri+c)γi=i=0Kriγi+i=0Kcγi
因此,如果我们有两个具有相同总奖励的策略(不增加常数)
i=0K1ri1γi=i=0K2ri2γi
但长度不同K1K2加上常数的总奖励会有所不同,因为第二项Rc(i=0Kcγi) 会有所不同。

举个例子:考虑两个最优策略,都产生相同的累积奖励 10,但是第一个策略在到达终端状态之前访问了 4 个状态,而第二个策略只访问了两个状态。奖励可以写成:

10+0+0+0=10
0+10=10
但是当我们给每个奖励加 100 时:
110+100+100+100=410
100+110=210
因此,现在第一个更好。

在连续情况下,剧集总是有长度的K=. 因此,它们总是具有相同的长度,并且添加一个常数不会改变任何东西,因为Rc保持不变。