我正在阅读“强化学习:简介”一书(Andrew Barto 和 Richard S. Sutton 着)。
作者提供了优先扫描算法的伪代码,但不知道是什么意思Model(s, a)。这是否意味着这Model(s, a)是我们处于状态s并采取行动时获得的奖励历史a?
是否R, S_new = Model(s,a)意味着我们应该从状态中获得的奖励中随机抽取样本s并采取行动a?
我正在阅读“强化学习:简介”一书(Andrew Barto 和 Richard S. Sutton 着)。
作者提供了优先扫描算法的伪代码,但不知道是什么意思Model(s, a)。这是否意味着这Model(s, a)是我们处于状态s并采取行动时获得的奖励历史a?
是否R, S_new = Model(s,a)意味着我们应该从状态中获得的奖励中随机抽取样本s并采取行动a?
我认为伪代码是为表格案例制作的,并假设了确定性环境。然后将是一个表格,其中包含下一个状态的信息和采取行动后的奖励从状态. 该表的大小将与 Q 表的大小相同。因为环境是确定性的,所以您不会随机抽样,因为只有一种可能的转换,因此您将采用模型表中记住的转换。