优先扫描算法中Model(s,a)是什么意思?

人工智能 强化学习 萨顿巴托 优先扫描
2021-10-28 12:47:14

我正在阅读“强化学习:简介”一书(Andrew Barto 和 Richard S. Sutton 着)。

作者提供了优先扫描算法的伪代码,但不知道是什么意思Model(s, a)这是否意味着这Model(s, a)是我们处于状态s并采取行动时获得的奖励历史a

是否R, S_new = Model(s,a)意味着我们应该从状态中获得的奖励中随机抽取样本s并采取行动a

1个回答

我认为伪代码是为表格案例制作的,并假设了确定性环境。Model(s,a)然后将是一个表格,其中包含下一个状态的信息和采取行动后的奖励a从状态s. 该表的大小将与 Q 表的大小相同。因为环境是确定性的,所以您不会随机抽样,因为只有一种可能的转换,因此您将采用模型表中记住的转换。