并行环境在强化学习中的作用是什么?

人工智能 强化学习 深度学习 近端策略优化
2021-11-16 09:59:53

并行环境是否提高了智能体的学习能力,还是真的没有影响?具体来说,我正在使用 PPO,但我认为这也适用于其他算法。

1个回答

并行环境是否提高了智能体的学习能力,还是真的没有影响?

是的,他们可以有所作为。有两种方法可以看到改进:

  • 一次从多个轨迹收集数据会降低数据集中的相关性。这提高了神经网络等在线学习系统的收敛性,这些系统最适合使用iid 数据

  • 总体而言,数据收集速度更快,从而缩短了时钟时间以获得相同的结果。这也可以更好地利用其他资源。

在这两者中,第一个改进对于稳定性很重要,尽管它可以通过在批量学习更新之间运行多个情节(或从多个起点重新开始)来模拟。

具体来说,我正在使用 PPO,但我认为这也适用于其他算法。

它确实适用于 PPO,但第一个改进并不全面适用。这些事情需要是真实的环境并行运行有助于稳定:

  • 使用 on-policy 方法,或者体验回放不是一个选项。

  • 对策略和/或价值函数使用函数逼近器。

很多策略梯度方法都与此匹配,包括 PPO、A3C、REINFORCE。然而,对于像 DQN 这样的 off-policy 方法,主要好处是更快的数据收集。

这些影响在介绍 A3C 的论文Asynchronous Methods for Deep Reinforcement Learning的第 1 节和第 4 节中进行了讨论——感谢 DeepQZero 的参考。