如何在表单中转换具有奖励功能的 MDPR (小号,一,s')R(s,a,s′)to 和一个具有奖励函数的 MDP,形式为R ( s , a )R(s,a)?

人工智能 强化学习 马尔可夫决策过程 证明 奖励函数
2021-11-04 06:53:36

AIMA 书中有一个练习,显示一个带有奖励形式的 MDPr(s,a,s)可以转换为带有奖励的 MDPr(s,a), 和一个有奖励的 MDPr(s)具有等效的最优策略。

在转换为的情况下r(s)正如作者的解决方案所建议的那样,我认为需要包含一个后状态。然而,我的直接转变方法是r(s,a,s)r(s,a)只是简单地期望r(s,a,s)关于 s' (*)。那是:

r(s,a)=sr(s,a,s)p(s|s,a)

然而,作者提出了一种状态前的转换,类似于状态后的转换。我相信基于期望的方法要优雅得多,并显示出一种不同的推理方式来补充人工状态的引入。但是,我发现的另一个资源也谈到了前置状态。

我的推理中是否有任何缺陷阻止了对奖励的期望并允许进行更简单的转换?我倾向于说不,因为这里接受的答案似乎支持这一点。顺便说一句,这个答案提到了萨顿和巴托的书,这似乎也可以接受r(s,a,s).

这是一种不时困扰我的存在问题,我想得到一些确认。

(*) 当然,这在r(s,a)r(s)在这种情况下,因为我们没有动作的概率分布(事实上,这将是一个策略,这就是我们所追求的)。

1个回答

我想我可以回答我自己的问题。具有 MDP 的贝尔曼方程(用于最优策略)r(s,a,s)奖励如下所示:

V(s)=maxa{sp(s|s,a)(r(s,a,s)+γV(s))}
V(s)=maxa{sp(s|s,a)r(s,a,s)+γsp(s|a,s)V(s)}

现在,sp(s|s,a)r(s,a,s)正是E[r(s,a,s)|s,a]=r(s,a).

总而言之,得到的贝尔曼方程如下所示:

V(s)=maxa{r(s,a)+γsp(s|s,a)V(s)}

那么很明显,一个过程r(s,a,s)奖励可以转化为r(s,a)在不引入人工状态和保持最优策略的情况下进行处理。

作为与问题本身无关的旁注,这使我相信r(s,a,s)函数在某些情况下可能很方便,但它们并没有增加“表达能力”,因为它们不允许更紧凑地建模问题(当我们扩展时会发生这种情况r(s)r(s,a))。