近端策略优化 (PPO) 是一种策略上的强化学习算法吗?

机器算法验证 机器学习 强化学习
2022-04-06 23:30:39

如果PPO实际上是on-policy算法,那么TRPO和A3C是否也是on-policy算法?

1个回答

A3C 是一种actor-critic 方法,它往往是on-policy(A3C 本身也是),因为actor 梯度仍然是根据从同一策略采样的轨迹的期望来计算的。

TRPO 和 PPO 都是 on-policy。基本上,他们优化了预期回报的一阶近似值,同时仔细确保该近似值不会偏离基本目标太远。当然,这需要经常从当前策略中采样新的 rollout,以便一阶近似在当前参数集周围的局部区域中保持有效θ.

非常迂腐,我想你可以说这是偏离政策,因为我们正在逼近某些政策的预期回报πθ从一个非常旧的样本中抽样 πθold,但这并不是传统意义上的真正偏离政策。