AIMA 书中有一个练习,显示一个带有奖励形式的 MDP可以转换为带有奖励的 MDP, 和一个有奖励的 MDP具有等效的最优策略。
在转换为的情况下正如作者的解决方案所建议的那样,我认为需要包含一个后状态。然而,我的直接转变方法是到只是简单地期望关于 s' (*)。那是:
然而,作者提出了一种状态前的转换,类似于状态后的转换。我相信基于期望的方法要优雅得多,并显示出一种不同的推理方式来补充人工状态的引入。但是,我发现的另一个资源也谈到了前置状态。
我的推理中是否有任何缺陷阻止了对奖励的期望并允许进行更简单的转换?我倾向于说不,因为这里接受的答案似乎支持这一点。顺便说一句,这个答案提到了萨顿和巴托的书,这似乎也可以接受.
这是一种不时困扰我的存在问题,我想得到一些确认。
(*) 当然,这在到在这种情况下,因为我们没有动作的概率分布(事实上,这将是一个策略,这就是我们所追求的)。