人工智能 - 强化学习中的奖励和回报有什么区别吗？ - 吾爱随笔录

强化学习中的奖励和回报有什么区别吗？

人工智能强化学习比较奖励返回

2021-10-23 06:22:10

我正在阅读萨顿和巴托关于强化学习的书。我以为奖励和回报是一回事。

但是，在本书的第 5.6 节，第 3 行，第一段中，它写道：

在第 2 章中，我们对奖励进行了平均，而在蒙特卡洛方法中，我们对回报进行了平均。

这是什么意思？奖励和回报是不同的东西吗？

2个回答

Return是指从当前时间步开始的总折扣奖励。

正如公认的答案所述，当前时间步的回报等于从所有未来时间步直到剧集结束的折扣奖励的总和。在 Sutton 和 Barto 的第 5 章中，必须使用回报来估计状态-价值和动作-价值函数，因为情节长度不受限制并且可能大于 1。相比之下，第 2 章处理非常特殊的多臂老虎机案例，其中情节长度始终等于 1：代理以固定的开始状态开始每个情节，采取行动，获得奖励，然后情节结束并且代理以相同的开始状态开始下一集。因此，在第 2 章中，回报等价于奖励，因为所有剧集的长度均为 1。

其它你可能感兴趣的问题

上一篇为什么将策略迭代和价值迭代作为单独的算法进行研究？下一篇时差学习的收敛条件是什么？