马尔可夫决策过程中的代理是否知道状态转移矩阵?

人工智能 强化学习 马尔可夫决策过程 基于模型的方法
2021-11-02 10:05:37

这个问题或多或少在标题中。

马尔可夫决策过程由状态空间、一组动作、转移概率和奖励函数组成。如果我现在从一个代理的角度来看,这个代理是否“知道”转移概率,还是他唯一知道他最终进入的状态以及他采取行动时收到的奖励?

1个回答

在强化学习 (RL) 中,有一些智能体需要知道状态转移概率,而另一些智能体不需要知道。此外,一些代理可能需要能够以某种方式对采取行动的结果进行采样,但并不严格需要访问概率矩阵。例如,如果代理被允许回溯,或者查询其他一些模拟目标环境的系统,则可能会出现这种情况。

任何需要访问状态转换矩阵或环境的前瞻样本的代理都称为基于模型的。这种情况下的模型可以是分布模型,即状态转换矩阵,也可以是模拟给定状态/动作组合的结果的采样模型。

状态转换函数p(r,s|s,a)返回观察奖励的概率r和下一个状态s给定开始状态s和行动a, 是表示分布模型的另一种方式。它通常简单地映射到状态转换矩阵,但可以是对模型的更完整描述。

一个基于模型的示例方法是价值迭代,它需要访问完整的分布模型才能处理价值更新步骤。此外,任何涉及规划的强化学习都必须使用某种模型。例如,在 AlphaGo 中使用的 MCTS 使用采样模型。

许多 RL 方法是无模型的。他们不需要访问模型。它们通过从环境中采样来工作,并随着时间的推移了解未知状态转换函数的行为对预期结果的影响。执行此操作的示例方法是 Monte Carlo Control、SARSA、Q learning、REINFORCE。

通过使用观察来构建环境的近似模型,并以某种形式的规划使用它,可以将无模型和基于模型的方法结合起来。Dyna-Q是一种方法,它通过简单地记住过去的转换并在后台重新使用它们来改进其价值估计来做到这一点。可以说,DQN 中的经验回放表是一种类似的背景规划形式(算法本质上是一样的)。然而,更复杂的模型学习和重用通常并不那么成功,并且在实践中并不常见。请参阅我们如何估计转换模型和奖励函数?

一般来说,在相同环境下,基于模型的方法比无模型方法学习得更快,因为它们从不需要学习的更多信息开始。然而,在没有可用的准确模型的情况下进行学习是很常见的,因此人们对无模型学习很感兴趣。有时,一个准确的模型在理论上是可能的,但从模型计算预测比从观察统计工作要多。