我正在阅读萨顿和巴托关于强化学习的书。我以为奖励和回报是一回事。
但是,在本书的第 5.6 节,第 3 行,第一段中,它写道:
在第 2 章中,我们对奖励进行了平均,而在蒙特卡洛方法中,我们对回报进行了平均。
这是什么意思?奖励和回报是不同的东西吗?
我正在阅读萨顿和巴托关于强化学习的书。我以为奖励和回报是一回事。
但是,在本书的第 5.6 节,第 3 行,第一段中,它写道:
在第 2 章中,我们对奖励进行了平均,而在蒙特卡洛方法中,我们对回报进行了平均。
这是什么意思?奖励和回报是不同的东西吗?
Return是指从当前时间步开始的总折扣奖励。
正如公认的答案所述,当前时间步的回报等于从所有未来时间步直到剧集结束的折扣奖励的总和。在 Sutton 和 Barto 的第 5 章中,必须使用回报来估计状态-价值和动作-价值函数,因为情节长度不受限制并且可能大于 1。相比之下,第 2 章处理非常特殊的多臂老虎机案例,其中情节长度始终等于 1:代理以固定的开始状态开始每个情节,采取行动,获得奖励,然后情节结束并且代理以相同的开始状态开始下一集。因此,在第 2 章中,回报等价于奖励,因为所有剧集的长度均为 1。