策略和价值迭代是否仅在类似网格世界的场景中使用?

人工智能 强化学习 价值迭代 政策迭代 动态规划
2021-11-14 18:57:01

我正在尝试自学强化学习。目前我专注于策略和价值迭代,我发现了几个问题和疑惑。

主要的疑问之一是我找不到很多关于如何在 python 上实现这些的多样化示例,相反我总是只找到经典的网格世界示例。

所以,我的疑问是:策略和价值迭代是否仅用于类似网格世界的场景,或者也可以在其他环境中使用?

1个回答

策略和价值迭代都要求您针对每个可能的转换和每个状态下的每个相应可能的奖励,计算一个统计量r+γV(s). 为了使其易于处理,您需要在每个状态下最多有有限多个状态、动作、可能的奖励和可能的转换。您还需要了解过渡模型。网格世界就是这种情况。

Gridworld 不是唯一可以通过策略或值迭代解决的 MDP 示例,但所有其他示例必须具有有限(且足够小)的状态和动作空间。例如,采用任何具有已知模型、有界状态和相当低维的动作空间的 MDP。然后,您可以使用有限数量的 bin 来近似状态和动作空间,每个 bin 对应于自己的“离散状态/动作”。有了足够平滑的动态和足够的 bin,您将能够通过离散空间上的策略/值迭代来解决 MDP。

然而,在许多有趣的 RL 问题中,

  1. 您不知道过渡模型,和/或
  2. 状态空间、动作空间和/或奖励空间太大

在这些情况下,您将无法准确计算价值函数,因此您无法真正进行策略/价值迭代。然而,在大多数基于价值的 RL 算法中,策略评估/策略改进步骤是使用样本转换和函数逼近器来逼近的。