如果PPO实际上是on-policy算法,那么TRPO和A3C是否也是on-policy算法?
近端策略优化 (PPO) 是一种策略上的强化学习算法吗?
机器算法验证
机器学习
强化学习
2022-04-06 23:30:39
1个回答
A3C 是一种actor-critic 方法,它往往是on-policy(A3C 本身也是),因为actor 梯度仍然是根据从同一策略采样的轨迹的期望来计算的。
TRPO 和 PPO 都是 on-policy。基本上,他们优化了预期回报的一阶近似值,同时仔细确保该近似值不会偏离基本目标太远。当然,这需要经常从当前策略中采样新的 rollout,以便一阶近似在当前参数集周围的局部区域中保持有效.
非常迂腐,我想你可以说这是偏离政策,因为我们正在逼近某些政策的预期回报从一个非常旧的样本中抽样 ,但这并不是传统意义上的真正偏离政策。
其它你可能感兴趣的问题