OpenAI Gym 真正规范了强化学习的执行方式。它使数据科学家可以将模型开发和环境设置/构建分开,并专注于他们真正应该关注的事情。
引用健身房网站:
背景:为什么是健身房?(2016)
强化学习 (RL) 是机器学习的子领域,与决策和运动控制有关。它研究智能体如何学习如何在复杂、不确定的环境中实现目标。令人兴奋的原因有两个:
- RL 非常笼统,涵盖了涉及做出一系列决策的所有问题:例如,控制机器人的电机使其能够奔跑和跳跃,做出定价和库存管理等业务决策,或者玩电子游戏和棋盘游戏。RL 甚至可以应用于具有顺序或结构化输出的监督学习问题。
- RL 算法已经开始在许多困难的环境中取得良好的效果。强化学习有着悠久的历史,但在深度学习取得最新进展之前,它需要大量针对特定问题的工程。DeepMind 的 Atari 结果、Pieter Abbeel 小组的 BRETT 和 AlphaGo 都使用了深度 RL 算法,这些算法没有对其环境做出太多假设,因此可以应用于其他环境。
然而,RL 研究也因两个因素而放缓:
- 需要更好的基准。在监督学习中,像 ImageNet 这样的大型标记数据集推动了进步。在 RL 中,最接近的等价物是大量多样的环境集合。然而,现有的 RL 环境开源集合并没有足够的多样性,而且往往难以设置和使用。
- 出版物中使用的环境缺乏标准化。问题定义中的细微差异,例如奖励函数或动作集,可以极大地改变任务的难度。这个问题使得复制已发表的研究和比较不同论文的结果变得困难。
Gym 试图解决这两个问题。
我想知道是否有与监督或无监督学习等效的东西。我相信出于同样的原因,这样的工具也会很有用。我错过了什么吗?或者那里已经有什么东西了?