我正在参加关于强化学习的 Coursera 课程。学习材料中没有解决一个问题:向所有奖励添加一个常数会改变情节任务中的最优策略集吗?
答案是肯定的——在奖励信号中添加一个常数可以使较长的情节或多或少有利(取决于常数是正数还是负数)。
谁能解释为什么会这样?为什么在连续(非偶发)任务的情况下它不会改变?我不明白为什么添加一个常数很重要——因为最优策略仍然希望获得最大的奖励......
谁能举个例子?
我正在参加关于强化学习的 Coursera 课程。学习材料中没有解决一个问题:向所有奖励添加一个常数会改变情节任务中的最优策略集吗?
答案是肯定的——在奖励信号中添加一个常数可以使较长的情节或多或少有利(取决于常数是正数还是负数)。
谁能解释为什么会这样?为什么在连续(非偶发)任务的情况下它不会改变?我不明白为什么添加一个常数很重要——因为最优策略仍然希望获得最大的奖励......
谁能举个例子?
一般我们可以写为增加常数的总奖励作为一项政策
因此,如果我们有两个具有相同总奖励的策略(不增加常数)
但长度不同加上常数的总奖励会有所不同,因为第二项() 会有所不同。
举个例子:考虑两个最优策略,都产生相同的累积奖励 10,但是第一个策略在到达终端状态之前访问了 4 个状态,而第二个策略只访问了两个状态。奖励可以写成:
和
但是当我们给每个奖励加 100 时:
和
因此,现在第一个更好。
在连续情况下,剧集总是有长度的. 因此,它们总是具有相同的长度,并且添加一个常数不会改变任何东西,因为保持不变。