人工智能 - 并行环境在强化学习中的作用是什么？ - 吾爱随笔录

人工智能强化学习深度学习近端策略优化

2021-11-16 09:59:53

并行环境是否提高了智能体的学习能力，还是真的没有影响？具体来说，我正在使用 PPO，但我认为这也适用于其他算法。

1个回答

并行环境是否提高了智能体的学习能力，还是真的没有影响？

是的，他们可以有所作为。有两种方法可以看到改进：

在这两者中，第一个改进对于稳定性很重要，尽管它可以通过在批量学习更新之间运行多个情节（或从多个起点重新开始）来模拟。

具体来说，我正在使用 PPO，但我认为这也适用于其他算法。

它确实适用于 PPO，但第一个改进并不全面适用。这些事情需要是真实的环境并行运行有助于稳定：

很多策略梯度方法都与此匹配，包括 PPO、A3C、REINFORCE。然而，对于像 DQN 这样的 off-policy 方法，主要好处是更快的数据收集。

这些影响在介绍 A3C 的论文Asynchronous Methods for Deep Reinforcement Learning的第 1 节和第 4 节中进行了讨论——感谢 DeepQZero 的参考。

其它你可能感兴趣的问题