如果策略迭代算法使用转移概率,它怎么能是无模型的?

人工智能 强化学习 比较 基于模型的方法 无模型方法 政策迭代
2021-11-01 12:00:00

我实际上是在尝试在 RL 的背景下理解策略迭代。我读了一篇介绍它的文章,并且在某些时候,给出了该算法的伪代码:在此处输入图像描述

我无法理解的是这一行:

在此处输入图像描述

据我了解,策略迭代是一种无模型算法,这意味着它不需要知道环境的动态。但是,在这一行中,我们需要p(s,rs,π(s))(在我的理解中是 MDP 的转换函数,它给了我们登陆状态的概率s知道以前的s状态和采取的行动)计算V(s). 所以我不明白我们如何计算V(s)与数量p(s,rs,π(s))因为它是环境的参数。

2个回答

除了策略迭代是无模型的错误假设之外,您在帖子中所说的一切都是正确的。由于您提到的原因,PI是一种基于模型的算法。

请参阅对问题的回答无模型和基于模型的强化学习有什么区别?.

策略迭代算法(在问题中给出)是基于模型的。

但是,请注意,存在属于广义策略迭代类别的方法,例如 SARSA,它们是无模型的。

据我了解,策略迭代是一种无模型算法

也许这是指广义的策略迭代方法。


(根据@Neil Slater 的评论回答。)