我是 RL 的新手,我正在尝试阅读《强化学习:介绍 I》(Sutton 和 Barto,2018 年)一书。在关于有限马尔可夫决策过程的第 3 章中,作者将预期奖励写为
我不确定作者的意思是
或者
如果作者的意思是第一个,有什么理由不写成下面这样吗?
我是 RL 的新手,我正在尝试阅读《强化学习:介绍 I》(Sutton 和 Barto,2018 年)一书。在关于有限马尔可夫决策过程的第 3 章中,作者将预期奖励写为
我不确定作者的意思是
或者
如果作者的意思是第一个,有什么理由不写成下面这样吗?
您的第一个选项是正确的:
这部分是口味问题,但我更喜欢不移动进入双重和,因为它的值在“内循环”中不会改变。这种方式有少量的直觉,尤其是在实现方面(它是求和后的一个乘法,而不是总和中的许多)。
Sutton & Barto 中有很多包含 sum 的 sum,它们主要遵循不使用任何括号或括号来明确显示一个 sum 包含另一个 sum 的约定。
在这种情况下,这些公式有助于链接到 RL 的其他处理,这些处理与预期的奖励函数一起工作或者,或奖励矩阵,例如萨顿和巴托的书的第一版。本书第二版使用几乎无处不在,你不会看到再次提到很多。因此,不必过分关注它是如何呈现的,以及作者可能会在演示中说什么。
通常你不需要知道奖励的分配,只需要知道它的期望(以及这取决于),以便推导和解释 RL 中的大部分结果。所以使用在贝尔曼方程等地方,类似的函数也很好。然而,使用是通用的,不需要引入更多描述 MDP 的函数。