我试图在强化学习的背景下理解 MDP,特别是我试图理解奖励函数明确依赖的内容。
我已经看到了 Andrew Ng 在他的讲义中定义的奖励函数公式:
这意味着奖励函数取决于当前状态和在该状态下采取的行动并映射到某个实数(奖励)。
为了获得不同的观点,我阅读了维基百科的解释:
该过程在下一个时间步通过随机移动到新状态 s' 来响应,并给予决策者相应的奖励。在我看来,这似乎是一种不同的解释,因为这会使奖励函数更像是以下形式的函数:
在我看来,这似乎是完全不同的事情。在 MDP 应用于强化学习的背景下,我试图了解这两个公式是否实际上相同(以及是否有可能证明它们的等价性)。