理解预期奖励定义中的符号

人工智能 强化学习 萨顿巴托 符号
2021-10-22 08:26:22

我是 RL 的新手,我正在尝试阅读《强化学习:介绍 I》(Sutton 和 Barto,2018 年)一书。在关于有限马尔可夫决策过程的第 3 章中,作者将预期奖励写为

r(s,a)=E[Rt|St1=s,At1=a]=rRrsSp(s,r|s,a)

我不确定作者的意思是

r(s,a)=E[Rt|St1=s,At1=a]=rR[rsSp(s,r|s,a)]

或者

r(s,a)=E[Rt|St1=s,At1=a]=[rRr][sSp(s,r|s,a)].

如果作者的意思是第一个,有什么理由不写成下面这样吗?

r(s,a)=E[Rt|St1=s,At1=a]=rRsS[rp(s,r|s,a)]

1个回答

您的第一个选项是正确的:

r(s,a)=E[Rt|St1=s,At1=a]=rR[rsSp(s,r|s,a)]

这部分是口味问题,但我更喜欢不移动r进入双重和,因为它的值在“内循环”中不会改变。这种方式有少量的直觉,尤其是在实现方面(它是求和后的一个乘法,而不是总和中的许多)。

Sutton & Barto 中有很多包含 sum 的 sum,它们主要遵循不使用任何括号或括号来明确显示一个 sum 包含另一个 sum 的约定。

在这种情况下,这些公式有助于链接到 RL 的其他处理,这些处理与预期的奖励函数一起工作r(s,a)或者r(s,a,s),或奖励矩阵Rsa,Rssa例如萨顿和巴托的书的第一版。本书第二版使用p(s,r|s,a)几乎无处不在,你不会看到r(s,a)再次提到很多。因此,不必过分关注它是如何呈现的,以及作者可能会在演示中说什么。

通常你不需要知道奖励的分配,只需要知道它的期望(以及这取决于s,a,s),以便推导和解释 RL 中的大部分结果。所以使用r(s,a)在贝尔曼方程等地方,类似的函数也很好。然而,使用p(s,r|s,a)是通用的,不需要引入更多描述 MDP 的函数。