特别是,我想对“环境”和“状态”有一个简单的定义。这两个概念有什么区别?另外,我想知道模型的概念与其他两个概念有何关系。
有一个类似的问题,强化学习中的观察和状态有什么区别?,但这并不是我想要的。
特别是,我想对“环境”和“状态”有一个简单的定义。这两个概念有什么区别?另外,我想知道模型的概念与其他两个概念有何关系。
有一个类似的问题,强化学习中的观察和状态有什么区别?,但这并不是我想要的。
环境
这是解决问题的体现。它可能是真实的物理情况(道路网络和汽车),也可能是计算机上的虚拟情况(计算机上的棋盘游戏)。它包括解决所发生情况所需的所有机制。例如,在现实世界中涉及的对象,代理在采取行动时如何施加控制,以及适用的现实世界物理定律。或者,在模拟世界中,诸如棋盘游戏规则之类的东西以代码实现。
状态
这是环境中某个时间步长的“位置”的表示。它可能是代理可以通过传感器观察到的东西,或者是由运行模拟的计算机系统直接提供的。
对于 RL 理论来说,重要的是状态表示具有马尔可夫属性,即状态准确地预测了可能采取的每个动作的奖励概率和后续状态。您无需知道这些概率即可运行 RL 算法(实际上这是您不知道的常见情况)。然而,重要的是状态+动作和接下来发生的事情之间的依赖关系是可靠的。
状态通常由值向量表示。这些描述了游戏中棋子的位置,或已感应到的物体的位置和速度。一个状态可以从观察中建立,但不必与单个观察进行一对一的匹配。必须注意获得足够的信息来获得马尔可夫属性。因此,例如,来自相机的单个图像不会捕获速度 - 如果速度对您的问题很重要,您可能需要多个连续图像来构建有用的状态。
模型
在强化学习中,术语“模型”具体表示环境的预测模型,它解决了一个状态的动作之后的下一个奖励和下一个状态的概率。该模型可能由环境的代码提供,或者可以学习(与学习在该环境中表现不同)。
一些 RL 算法可以利用模型来帮助学习。规划算法需要一个。所谓的“无模型”算法并不是因为它们不使用显式模型,而是纯粹根据经验工作。
大致有两种类型的模型:
提供所有事件概率的分布模型。最通用的功能可能是这是获得奖励的概率并过渡到状态以状态开始并采取行动.
产生奖励的采样模型和下一个状态当给定当前状态时和行动. 样本可能来自模拟,或者只是取自学习算法迄今为止所经历的历史。
在更一般的 stats/ML 中,术语“模型”更具包容性,可以表示您可能构建的任何预测系统,而不仅仅是对下一个奖励和状态的预测。然而,RL 的文献通常避免称其为“模型”,并使用“函数逼近器”等术语来避免重载“模型”的含义。