人工智能 - 环境、状态和模型之间的关系是什么？ - 吾爱随笔录

人工智能强化学习术语定义

2021-11-13 03:18:25

特别是，我想对“环境”和“状态”有一个简单的定义。这两个概念有什么区别？另外，我想知道模型的概念与其他两个概念有何关系。

1个回答

环境

这是解决问题的体现。它可能是真实的物理情况（道路网络和汽车），也可能是计算机上的虚拟情况（计算机上的棋盘游戏）。它包括解决所发生情况所需的所有机制。例如，在现实世界中涉及的对象，代理在采取行动时如何施加控制，以及适用的现实世界物理定律。或者，在模拟世界中，诸如棋盘游戏规则之类的东西以代码实现。

状态

这是环境中某个时间步长的“位置”的表示。它可能是代理可以通过传感器观察到的东西，或者是由运行模拟的计算机系统直接提供的。

对于 RL 理论来说，重要的是状态表示具有马尔可夫属性，即状态准确地预测了可能采取的每个动作的奖励概率和后续状态。您无需知道这些概率即可运行 RL 算法（实际上这是您不知道的常见情况）。然而，重要的是状态+动作和接下来发生的事情之间的依赖关系是可靠的。

状态通常由值向量表示。这些描述了游戏中棋子的位置，或已感应到的物体的位置和速度。一个状态可以从观察中建立，但不必与单个观察进行一对一的匹配。必须注意获得足够的信息来获得马尔可夫属性。因此，例如，来自相机的单个图像不会捕获速度 - 如果速度对您的问题很重要，您可能需要多个连续图像来构建有用的状态。

模型

在强化学习中，术语“模型”具体表示环境的预测模型，它解决了一个状态的动作之后的下一个奖励和下一个状态的概率。该模型可能由环境的代码提供，或者可以学习（与学习在该环境中表现不同）。

一些 RL 算法可以利用模型来帮助学习。规划算法需要一个。所谓的“无模型”算法并不是因为它们不使用显式模型，而是纯粹根据经验工作。

大致有两种类型的模型：

提供所有事件概率的分布模型。最通用的功能可能是 $p(r,s'|s,a)$ 这是获得奖励的概率 $r$ 并过渡到状态 $s'$ 以状态开始 $s$ 并采取行动 $a$ .
产生奖励的采样模型 $r$ 和下一个状态 $s'$ 当给定当前状态时 $s$ 和行动 $a$ . 样本可能来自模拟，或者只是取自学习算法迄今为止所经历的历史。

在更一般的 stats/ML 中，术语“模型”更具包容性，可以表示您可能构建的任何预测系统，而不仅仅是对下一个奖励和状态的预测。然而，RL 的文献通常避免称其为“模型”，并使用“函数逼近器”等术语来避免重载“模型”的含义。

其它你可能感兴趣的问题