人工智能 - 优先扫描算法中Model(s,a)是什么意思？ - 吾爱随笔录

优先扫描算法中Model(s,a)是什么意思？

人工智能强化学习萨顿巴托优先扫描

2021-10-28 12:47:14

我正在阅读“强化学习：简介”一书（Andrew Barto 和 Richard S. Sutton 着）。

作者提供了优先扫描算法的伪代码，但不知道是什么意思Model(s, a)。这是否意味着这Model(s, a)是我们处于状态s并采取行动时获得的奖励历史a？

是否R, S_new = Model(s,a)意味着我们应该从状态中获得的奖励中随机抽取样本s并采取行动a？

1个回答

我认为伪代码是为表格案例制作的，并假设了确定性环境。 $Model(s, a)$ 然后将是一个表格，其中包含下一个状态的信息和采取行动后的奖励 $a$ 从状态 $s$ . 该表的大小将与 Q 表的大小相同。因为环境是确定性的，所以您不会随机抽样，因为只有一种可能的转换，因此您将采用模型表中记住的转换。

其它你可能感兴趣的问题

上一篇缩放特征对模型性能有什么影响？下一篇在蚁群算法和经典路由算法之间，哪种算法对最短路径问题具有更好的时间复杂度？