OpenAI Gym 等效于有监督和/或无监督学习

数据挖掘 开放式健身房
2022-02-16 13:17:59

OpenAI Gym 真正规范了强化学习的执行方式。它使数据科学家可以将模型开发和环境设置/构建分开,并专注于他们真正应该关注的事情。

引用健身房网站

背景:为什么是健身房?(2016)

强化学习 (RL) 是机器学习的子领域,与决策和运动控制有关。它研究智能体如何学习如何在复杂、不确定的环境中实现目标。令人兴奋的原因有两个:

  • RL 非常笼统,涵盖了涉及做出一系列决策的所有问题:例如,控制机器人的电机使其能够奔跑和跳跃,做出定价和库存管理等业务决策,或者玩电子游戏和棋盘游戏。RL 甚至可以应用于具有顺序或结构化输出的监督学习问题。
  • RL 算法已经开始在许多困难的环境中取得良好的效果强化学习有着悠久的历史,但在深度学习取得最新进展之前,它需要大量针对特定问题的工程。DeepMind 的 Atari 结果、Pieter Abbeel 小组的 BRETT 和 AlphaGo 都使用了深度 RL 算法,这些算法没有对其环境做出太多假设,因此可以应用于其他环境。

然而,RL 研究也因两个因素而放缓:

  • 需要更好的基准在监督学习中,像 ImageNet 这样的大型标记数据集推动了进步。在 RL 中,最接近的等价物是大量多样的环境集合。然而,现有的 RL 环境开源集合并没有足够的多样性,而且往往难以设置和使用。
  • 出版物中使用的环境缺乏标准化问题定义中的细微差异,例如奖励函数或动作集,可以极大地改变任务的难度。这个问题使得复制已发表的研究和比较不同论文的结果变得困难。

Gym 试图解决这两个问题。

我想知道是否有与监督或无监督学习等效的东西。我相信出于同样的原因,这样的工具也会很有用。我错过了什么吗?或者那里已经有什么东西了?

1个回答

为监督学习和非监督学习表示数据的一种标准方法是整洁的数据框。整洁的数据框将数据放入表格形式,其中每一行是一个观察值,每一列是一个特征。一旦数据采用这种形式,就可以进行机器学习建模。