环境、状态和模型之间的关系是什么?

人工智能 强化学习 术语 定义
2021-11-13 03:18:25

特别是,我想对“环境”和“状态”有一个简单的定义。这两个概念有什么区别?另外,我想知道模型的概念与其他两个概念有何关系。

有一个类似的问题,强化学习中的观察和状态有什么区别?,但这并不是我想要的。

1个回答

环境

这是解决问题的体现。它可能是真实的物理情况(道路网络和汽车),也可能是计算机上的虚拟情况(计算机上的棋盘游戏)。它包括解决所发生情况所需的所有机制。例如,在现实世界中涉及的对象,代理在采取行动时如何施加控制,以及适用的现实世界物理定律。或者,在模拟世界中,诸如棋盘游戏规则之类的东西以代码实现。

状态

这是环境中某个时间步长的“位置”的表示。它可能是代理可以通过传感器观察到的东西,或者是由运行模拟的计算机系统直接提供的。

对于 RL 理论来说,重要的是状态表示具有马尔可夫属性,即状态准确地预测了可能采取的每个动作的奖励概率和后续状态。您无需知道这些概率即可运行 RL 算法(实际上这是您不知道的常见情况)。然而,重要的是状态+动作和接下来发生的事情之间的依赖关系是可靠的。

状态通常由值向量表示。这些描述了游戏中棋子的位置,或已感应到的物体的位置和速度。一个状态可以从观察中建立,但不必与单个观察进行一对一的匹配。必须注意获得足够的信息来获得马尔可夫属性。因此,例如,来自相机的单个图像不会捕获速度 - 如果速度对您的问题很重要,您可能需要多个连续图像来构建有用的状态。

模型

在强化学习中,术语“模型”具体表示环境的预测模型,它解决了一个状态的动作之后的下一个奖励和下一个状态的概率。该模型可能由环境的代码提供,或者可以学习(与学习在该环境中表现不同)。

一些 RL 算法可以利用模型来帮助学习。规划算法需要一个。所谓的“无模型”算法并不是因为它们不使用显式模型,而是纯粹根据经验工作。

大致有两种类型的模型:

  • 提供所有事件概率的分布模型。最通用的功能可能是p(r,s|s,a)这是获得奖励的概率r并过渡到状态s以状态开始s并采取行动a.

  • 产生奖励的采样模型r和下一个状态s当给定当前状态时s和行动a. 样本可能来自模拟,或者只是取自学习算法迄今为止所经历的历史。

在更一般的 stats/ML 中,术语“模型”更具包容性,可以表示您可能构建的任何预测系统,而不仅仅是对下一个奖励和状态的预测。然而,RL 的文献通常避免称其为“模型”,并使用“函数逼近器”等术语来避免重载“模型”的含义。