是否存在离策略策略梯度方法?
我知道策略梯度方法本身使用策略函数进行抽样部署。但是我们不能轻松地建立一个从环境中采样的模型吗?如果是这样,我以前从未见过这样做过。
是否存在离策略策略梯度方法?
我知道策略梯度方法本身使用策略函数进行抽样部署。但是我们不能轻松地建立一个从环境中采样的模型吗?如果是这样,我以前从未见过这样做过。
当然,这是一个非常有趣的问题。这是一篇详细介绍政策参与者评论家的论文。这很重要,因为此方法还可以支持连续操作。
离策略算法的一般思想是将行为策略(实际上是在世界中起作用)执行的动作与目标策略(我们想要学习的策略)选择的动作进行比较。使用这种比较,我们可以确定一个比率 () 可以通过目标策略采取该动作的概率来扩展对目标策略的更新。更高的,这两个策略越相似,这增加了该步骤的目标策略的学习更新幅度。一个的,并且忽略更新。