RL 试图解决的各种问题是什么?

人工智能 强化学习
2021-10-23 06:10:59

我已经阅读了 Sutton 和 Barto 关于强化学习的大部分介绍性文本。我想我会尝试将书中的一些 RL 算法应用到我之前在推箱子上完成的任务中,在这个任务中,你处于一个类似迷宫的网格环境中,试图将三个雪球堆叠成一个雪人,位于网格。

基本算法(MC 控制、Q-learning 或 Dyna-Q)似乎都基于解决代理所训练的任何特定迷宫。例如,从坐标 (1,2) 到 (1,3) 的转移概率对于不同的迷宫是不同的(因为在一个迷宫中,我们可能在 (1,3) 处有障碍物)。使用这些算法基于一个迷宫计算其奖励的代理似乎不知道在完全不同的迷宫中该做什么。它必须重新训练:1)要么采取现实生活中的行动,从头开始重新学习如何在迷宫中导航,要么 2)给出迷宫的模型,无论是精确的还是近似的(这在现实生活中似乎是不可行的),这样计划而不采取行动是可能的。

当我开始学习 RL 时,我认为它会更通用。这引出了一个问题:多任务强化学习是否涵盖了这个问题?你会如何根据它要解决的一般问题对 RL 的各个领域进行分类?

1个回答

基本算法(MC 控制、Q-learning 或 Dyna-Q)似乎都基于解决代理所训练的任何特定迷宫。

所有 RL 算法都基于为定义的状态和动作空间创建解决方案。如果您将状态空间表示和训练限制在一个迷宫中,那么这就是将要学习的内容。这与其他机器学习方法没有什么不同——它们通过显示该群体的样本(不仅仅是一个示例)来学习该群体的特征。它们还需要针对您需要它们解决的输入参数范围进行构建。

对于 RL 和你的迷宫求解器,这意味着状态表示需要覆盖所有可能的迷宫,而不仅仅是单个迷宫中的位置(有一些方法可以将一些表示内化到学习过程中,例如使用 RNN,但这与这里的主要答案无关)。

Sutton & Barto 中的玩具环境通常很容易使用非 RL 方法解决。它们不是 RL 可以做什么的演示,而是选择它们来解释与学习相关的特定问题是如何工作的。Sutton & Barto 确实包括一章关于 RL 更有趣和更高级的使用——即第二版中的第 16 章“应用和案例研究” 。

当我开始学习 RL 时,我认为它会更通用。

确实如此,但如果没有某种预训练来支持从少量示例进行泛化,您必须:

  • 为一般问题建模

  • 针对一般问题训练代理

与 RL 大致相似的生物学习相比,从头开始针对新问题训练的 RL 代理似乎效率非常低。但是,RL 不是通用智能模型,而是通过反复试验进行学习的模型。大多数示例都是从没有知识开始的,甚至不是迷宫的基本先验知识,例如网格布局或移动和位置的通用知识。

如果您确实提供了更一般的问题定义和训练示例,并使用可以在内部进行泛化的函数逼近器(例如神经网络),那么代理可以学习在更一般的意义上解决问题,并且可以生成内部表示(大约)匹配一般问题中的共同因素。