机器算法验证 - 近端策略优化 (PPO) 是一种策略上的强化学习算法吗？ - 吾爱随笔录

机器算法验证机器学习强化学习

2022-04-06 23:30:39

如果PPO实际上是on-policy算法，那么TRPO和A3C是否也是on-policy算法？

1个回答

A3C 是一种actor-critic 方法，它往往是on-policy（A3C 本身也是），因为actor 梯度仍然是根据从同一策略采样的轨迹的期望来计算的。

TRPO 和 PPO 都是 on-policy。基本上，他们优化了预期回报的一阶近似值，同时仔细确保该近似值不会偏离基本目标太远。当然，这需要经常从当前策略中采样新的 rollout，以便一阶近似在当前参数集周围的局部区域中保持有效 $\theta$ .

非常迂腐，我想你可以说这是偏离政策，因为我们正在逼近某些政策的预期回报 $\pi_{\theta}$ 从一个非常旧的样本中抽样 $\pi_{\theta_\text{old}}$ ，但这并不是传统意义上的真正偏离政策。

其它你可能感兴趣的问题