人工智能 - 我对退货的解释是否正确？ - 吾爱随笔录

我对退货的解释是否正确？

人工智能强化学习奖励萨顿巴托返回

2021-10-24 18:29:33

Sutton 和 Barto 2018 定义了贴现回报 $G_t$ 以下方式（第 55 页）：

我的解释正确吗？

还是应该所有的“1”都在同一列？

1个回答

你的表几乎是正确的。这是一个微小的区别，你不应该有 $R_0$ ，最上面一行，最左边的数字列应该是空的。那是因为第一个奖励是 $R_1$ （采取行动的结果 $A_0$ 处于状态 $S_0$ ）。不过，右侧列的对齐方式是正确的。

在顶部添加时间步数可能会有所帮助。但重要的细节是 $G_t$ 是衡量所有未来奖励的标准。

例如，当您达到终端状态时，它应该始终为零，这就是您的示例所显示的。虽然在剧集结束时（即到达最终状态时）收到奖励是很常见的，但也如您的示例所示。

让奖励时间步长与下一个状态匹配的决定是一个可以更改的约定。一些 RL 来源，但不是 Sutton 和 Barto，将在与决定它的状态和动作相同的时间步上获得奖励，因此 $R_0$ 将存在。达到最终状态的奖励 1 将在您的表中提前 1 个时间步长，并且不会有 $R_4$ . 的定义 $G_t$ 将需要更改以匹配（ $G_t = R_t + \gamma G_{t+1})$ ，以及其他方程。这也会改变你的桌子——奖励顺序（顶行）会向左移动。

其它你可能感兴趣的问题

上一篇在强化学习中，最优值是否对应于在给定状态下执行最佳动作？下一篇聊天机器人的未来