数据挖掘 - 如果强化学习中的状态空间是连续的，那么策略是什么 - 吾爱随笔录

如果强化学习中的状态空间是连续的，那么策略是什么

数据挖掘强化学习

2022-03-04 21:05:15

我最近开始学习强化学习。当涉及到连续空间时，我对代理的政策几乎没有疑问。据我了解，策略告诉代理在特定状态下要执行哪个操作。当涉及到状态空间是离散且有限的迷宫示例时，这是有道理的。如果状态空间是连续的，代理会拥有状态空间中所有可能状态的信息吗？如果 RL 代理处于训练期间未遇到的新状态，它是否也能够做出决定？

1个回答

您仍然可以定义状态值函数 $v(s)$ , 动作价值函数 $q(s,a)$ 和政策职能 $\pi(s)$ 或者 $\pi(a|s)$ 当状态 $s$ 来自一个非常大或连续的空间。强化学习 (RL) 在该领域仍然是一个定义明确的问题。

变得更难的是遍历状态空间。这排除了两种简单的方法：

表格方法 - 存储具有正确操作或值的所有状态的列表。
需要遍历所有状态的任何方法，例如动态编程方法 Policy Iteration 或 Value Iteration。

这些是强化学习的重要方法。通过制表并假设您可以遍历所有可能性，那么您可以证明您会找到最佳策略。

但是，RL 方法仍然可以处理大型状态空间。这样做的主要方法是使用某种形式的函数逼近，然后泛化空间，以便使用关于单个状态的知识来评估相似的状态。

函数逼近可以简单地离散空间以使数字更易于管理。或者，您可以使用可参数化的机器学习方法，例如神经网络。神经网络与强化学习方法的结合是“深度”强化学习方法的背后，该方法已成为近期研究的主题。

如果您在 RL 中使用任何函数逼近，则无法保证找到最佳策略。相反，您会找到该策略的近似值。但是，这通常足以达到目的。

要更直接地回答问题：

如果强化学习中的状态空间是连续的，那么策略是什么

理论上没有变化。您可以将策略表示为 $\pi(s)$ 对于确定性策略，或 $\pi(a|s)$ 对于随机策略，无论空间 $s$ .

在实现级别，您将需要实现一个参数函数，该函数采用 $s$ 作为其输入之一。功能参数 $\theta$ 是学到了什么。例如，如果您使用基于动作值的方法，例如 Q-learning，那么您将创建一个近似值 $Q(s,a)$ - 在文献中，您可能会看到这直接表示为 $\hat{q}(s,a,\theta) \approx Q(s,a)$

使用神经网络 $\hat{q}(s,a,\theta)$ 是实现此目的的一种常见方法，其中神经网络的权重和偏差值位于 $\theta$ .

如果状态空间是连续的，代理会拥有状态空间中所有可能状态的信息吗？

取决于您所说的“有信息”是什么意思。代理不可能存储关于每个状态的单独数据。然而，它可能有关于相似状态的信息，或者以更抽象的方式存储它关于状态的知识（例如在参数中） $\theta$ )

如果 RL 代理处于训练期间未遇到的新状态，它是否也能够做出决定？

是的。为了使它与函数逼近一起工作，它依赖于相似状态之间的成功泛化。因此，状态空间表示朝着这个方向努力是很重要的。例如，如果在您使用的状态空间表示中两个状态非常接近，那么应该预期价值函数和策略函数通常是相似的 - 并非总是如此，函数可以具有任意形状，但尝试有效地学习随机映射将是不可能的。

其它你可能感兴趣的问题

上一篇从食物列表中检索食物组下一篇神经网络精度：测试集与真实世界数据