如果强化学习中的状态空间是连续的,那么策略是什么

数据挖掘 强化学习
2022-03-04 21:05:15

我最近开始学习强化学习。当涉及到连续空间时,我对代理的政策几乎没有疑问。据我了解,策略告诉代理在特定状态下要执行哪个操作。当涉及到状态空间是离散且有限的迷宫示例时,这是有道理的。如果状态空间是连续的,代理会拥有状态空间中所有可能状态的信息吗?如果 RL 代理处于训练期间未遇到的新状态,它是否也能够做出决定?

1个回答

您仍然可以定义状态值函数v(s), 动作价值函数q(s,a)和政策职能π(s)或者π(a|s)当状态s来自一个非常大或连续的空间。强化学习 (RL) 在该领域仍然是一个定义明确的问题。

变得更难的是遍历状态空间。这排除了两种简单的方法:

  • 表格方法 - 存储具有正确操作或值的所有状态的列表。

  • 需要遍历所有状态的任何方法,例如动态编程方法 Policy Iteration 或 Value Iteration。

这些是强化学习的重要方法。通过制表并假设您可以遍历所有可能性,那么您可以证明您会找到最佳策略。

但是,RL 方法仍然可以处理大型状态空间。这样做的主要方法是使用某种形式的函数逼近,然后泛化空间,以便使用关于单个状态的知识来评估相似的状态。

函数逼近可以简单地离散空间以使数字更易于管理。或者,您可以使用可参数化的机器学习方法,例如神经网络。神经网络与强化学习方法的结合是“深度”强化学习方法的背后,该方法已成为近期研究的主题。

如果您在 RL 中使用任何函数逼近,则无法保证找到最佳策略。相反,您会找到该策略的近似值。但是,这通常足以达到目的。

要更直接地回答问题:

如果强化学习中的状态空间是连续的,那么策略是什么

理论上没有变化。您可以将策略表示为π(s)对于确定性策略,或π(a|s)对于随机策略,无论空间s.

在实现级别,您将需要实现一个参数函数,该函数采用s作为其输入之一。功能参数θ是学到了什么。例如,如果您使用基于动作值的方法,例如 Q-learning,那么您将创建一个近似值Q(s,a)- 在文献中,您可能会看到这直接表示为q^(s,a,θ)Q(s,a)

使用神经网络q^(s,a,θ)是实现此目的的一种常见方法,其中神经网络的权重和偏差值位于θ.

如果状态空间是连续的,代理会拥有状态空间中所有可能状态的信息吗?

取决于您所说的“有信息”是什么意思。代理不可能存储关于每个状态的单独数据。然而,它可能有关于相似状态的信息,或者以更抽象的方式存储它关于状态的知识(例如在参数中)θ)

如果 RL 代理处于训练期间未遇到的新状态,它是否也能够做出决定?

是的。为了使它与函数逼近一起工作,它依赖于相似状态之间的成功泛化。因此,状态空间表示朝着这个方向努力是很重要的。例如,如果在您使用的状态空间表示中两个状态非常接近,那么应该预期价值函数和策略函数通常是相似的 - 并非总是如此,函数可以具有任意形状,但尝试有效地学习随机映射将是不可能的。