我正在尝试解决一些关于 MRP 的问题(即一个马尔可夫决策过程,每个状态只有一个可能的动作)。设置如下:
有两种状态(和) 迈向是终端。
所有奖励都是零,踏出折扣是,所有其他步骤的折扣为零
可能的情况是:(可能性),(可能性) 和(可能性)。
我的第一个问题是,这里每个状态的最优值是否为零?如果不是,你是如何得出这个的?
我的第二个问题是我们是否需要一个参数并且有一个特点这样
和
在状态 a 和 b 处逼近最优值,我们试图逼近这样的通过 TD(0) 开始我怎样才能找到的期望值在更新一集之后? (在哪里是代表剧集持续时间的随机数)
我所说的情节是指如果我们从状态 b 回到 a 情节就结束了。