我对退货的解释是否正确?

人工智能 强化学习 奖励 萨顿巴托 返回
2021-10-24 18:29:33

Sutton 和 Barto 2018 定义了贴现回报Gt以下方式(第 55 页):

在此处输入图像描述

我的解释正确吗?

在此处输入图像描述

还是应该所有的“1”都在同一列?

1个回答

你的表几乎是正确的。这是一个微小的区别,你不应该有R0,最上面一行,最左边的数字列应该是空的。那是因为第一个奖励是R1(采取行动的结果A0处于状态S0)。不过,右侧列的对齐方式正确的。

在顶部添加时间步数可能会有所帮助。但重要的细节是Gt是衡量所有未来奖励的标准。

例如,当您达到终端状态时,它应该始终为零,这就是您的示例所显示的。虽然在剧集结束时(即到达最终状态时)收到奖励是很常见的,但也如您的示例所示。

让奖励时间步长与下一个状态匹配的决定是一个可以更改的约定。一些 RL 来源,但不是 Sutton 和 Barto,将在与决定它的状态和动作相同的时间步上获得奖励,因此R0将存在。达到最终状态的奖励 1 将在您的表中提前 1 个时间步长,并且不会有R4. 的定义Gt将需要更改以匹配(Gt=Rt+γGt+1),以及其他方程。这也会改变你的桌子——奖励顺序(顶行)会向左移动。