如果策略迭代算法使用转移概率,它怎么能是无模型的?
人工智能
强化学习
比较
基于模型的方法
无模型方法
政策迭代
2021-11-01 12:00:00
2个回答
除了策略迭代是无模型的错误假设之外,您在帖子中所说的一切都是正确的。由于您提到的原因,PI是一种基于模型的算法。
请参阅我对问题的回答无模型和基于模型的强化学习有什么区别?.
策略迭代算法(在问题中给出)是基于模型的。
但是,请注意,存在属于广义策略迭代类别的方法,例如 SARSA,它们是无模型的。
据我了解,策略迭代是一种无模型算法
也许这是指广义的策略迭代方法。
(根据@Neil Slater 的评论回答。)
其它你可能感兴趣的问题