并行环境是否提高了智能体的学习能力,还是真的没有影响?具体来说,我正在使用 PPO,但我认为这也适用于其他算法。
并行环境在强化学习中的作用是什么?
人工智能
强化学习
深度学习
近端策略优化
2021-11-16 09:59:53
1个回答
并行环境是否提高了智能体的学习能力,还是真的没有影响?
是的,他们可以有所作为。有两种方法可以看到改进:
一次从多个轨迹收集数据会降低数据集中的相关性。这提高了神经网络等在线学习系统的收敛性,这些系统最适合使用iid 数据。
总体而言,数据收集速度更快,从而缩短了时钟时间以获得相同的结果。这也可以更好地利用其他资源。
在这两者中,第一个改进对于稳定性很重要,尽管它可以通过在批量学习更新之间运行多个情节(或从多个起点重新开始)来模拟。
具体来说,我正在使用 PPO,但我认为这也适用于其他算法。
它确实适用于 PPO,但第一个改进并不全面适用。这些事情需要是真实的环境并行运行有助于稳定:
使用 on-policy 方法,或者体验回放不是一个选项。
对策略和/或价值函数使用函数逼近器。
很多策略梯度方法都与此匹配,包括 PPO、A3C、REINFORCE。然而,对于像 DQN 这样的 off-policy 方法,主要好处是更快的数据收集。
这些影响在介绍 A3C 的论文Asynchronous Methods for Deep Reinforcement Learning的第 1 节和第 4 节中进行了讨论——感谢 DeepQZero 的参考。