人工智能 - 如果策略迭代算法使用转移概率，它怎么能是无模型的？ - 吾爱随笔录

如果策略迭代算法使用转移概率，它怎么能是无模型的？

人工智能强化学习比较基于模型的方法无模型方法政策迭代

2021-11-01 12:00:00

我实际上是在尝试在 RL 的背景下理解策略迭代。我读了一篇介绍它的文章，并且在某些时候，给出了该算法的伪代码：

我无法理解的是这一行：

据我了解，策略迭代是一种无模型算法，这意味着它不需要知道环境的动态。但是，在这一行中，我们需要 $p(s',r \mid s, \pi(s))$ （在我的理解中是 MDP 的转换函数，它给了我们登陆状态的概率 $s'$ 知道以前的 $s$ 状态和采取的行动）计算 $V(s)$ . 所以我不明白我们如何计算 $V(s)$ 与数量 $p(s',r \mid s, \pi(s))$ 因为它是环境的参数。

2个回答

除了策略迭代是无模型的错误假设之外，您在帖子中所说的一切都是正确的。由于您提到的原因，PI是一种基于模型的算法。

请参阅我对问题的回答无模型和基于模型的强化学习有什么区别？.

策略迭代算法（在问题中给出）是基于模型的。

但是，请注意，存在属于广义策略迭代类别的方法，例如 SARSA，它们是无模型的。

据我了解，策略迭代是一种无模型算法

也许这是指广义的策略迭代方法。

（根据@Neil Slater 的评论回答。）

其它你可能感兴趣的问题

上一篇我应该如何处理神经网络分类器的可变输入大小？下一篇许多最好的概率模型仅隐含地表示概率分布