你什么时候会使用进化策略而不是基于步骤的强化学习

人工智能 强化学习 进化算法
2021-10-22 12:59:16

Salimans et al, 2016中,作者认为 ES 应该被视为基于 MDP 的 RL 算法(如 Q-Learning、TRPO)的竞争替代品。

然而,在实践中,我注意到 ES 通常比基于 MDP 的算法需要更多的情节来收敛。那么,除了纯粹的学术兴趣之外,还有什么理由考虑这些呢?

作者提到 ES 在长视野任务中表现出较小的差异,但没有给出示例。这方面至关重要吗?

1个回答

好问题!我做了一些研究,发现Deepmind 的开放式游戏中出现的一般有能力的代理正在使用 ES 以基于人群的训练形式:

我们还探讨了这样一个问题,即训练任务的哪种分布会产生最好的代理,尤其是在如此广阔的环境中?我们使用的动态任务生成允许对代理训练任务的分布进行持续更改:生成的每个任务既不太难也不太容易,但正好适合训练。然后,我们使用基于人口的训练(PBT)来调整动态任务生成的参数,该参数基于旨在提高智能体一般能力的适应度。最后,我们将多个训练运行链接在一起,以便每一代代理都可以引导上一代。

但这并没有真正回答他们的推理,所以我深入挖掘并在 lesswrong.com 上找到了一篇关于 PBT 使用的精彩文章我将引用本质,但强烈建议阅读有关 PBT 的链接章节:

进化选择给了我们什么我们还没有的东西?这让我们避免了什么问题?

这个问题有几个答案。

更狭义的答案是,这允许动态任务生成超参数本身向促进一般能力的方向转变。我们下面的优化级别都不包括更改这些参数的任何方式。但是,在训练开始或训练中期,产生一般能力的理想过滤参数可能会有所不同。或者他们可能因代理而异。如果没有像基于人口的培训这样的东西,他们将无法改变,这会损害绩效。

我认为,不那么狭隘的答案是,这确保代理正在以最内层循环无法做到的方式发展广泛的能力。[...] 我们的智能体群体中的每个智能体都将学会在某些任务分配上做得更好,但是如果没有基于群体的训练,他们可能不会在这个分布的整个范围内广泛传播自己。就像一个学生在她喜欢的科目上取得了巨大的进步,而忽略了她不擅长的科目,我们的代理人可能无法达到我们期望的一般能力理想。基于人口的训练通过增加通常表现良好且非狭义的代理/教师对来帮助防止这种情况。