强化学习中的分布模型和抽样模型有什么区别?

人工智能 强化学习 比较 参考请求 基于模型的方法 过渡模型
2021-10-30 21:36:07

Sutton 和 Barto 的书《强化学习:简介》将强化学习中的模型定义

模仿环境行为的东西,或者更一般地说,允许推断环境行为的东西。

这个答案中,回答者做出了区分:

大致有两种类型的模型:

  • 提供所有事件概率的分布模型。最通用的功能可能是p(r,s|s,a)这是获得奖励的概率r并过渡到状态s以状态开始s并采取行动a.

  • 产生奖励采样模型r和下一个状态s当给定当前状态时s和行动a. 样本可能来自模拟,或者只是取自学习算法迄今为止所经历的历史。

主要区别在于,在采样模型中,我只有一个黑匣子,给定一定的输入(s,a),生成输出,但我对 MDP 的概率分布一无所知。然而,有了一个采样模型,我可以通过运行数千个实验(例如蒙特卡洛树搜索)来重建(近似)概率分布。

另一方面,如果我有一个分布模型,我总是可以从中采样。

我想知道如果

  1. 我写的是正确的;

  2. 这种区别已在文献中得到体现,我可以在其中找到有关该主题的更深入讨论;

  3. 有人曾经将使用分布模型的基于模型的算法和仅使用采样模型的基于模型的算法分开。

1个回答

我认为您的描述大致正确,但我不会将“采样模型”称为“模型”,因为它不一定对某些东西进行建模,除非,例如,您首先在模拟中学习以便以后能够采取行动在现实世界或环境中(从这个意义上说,模拟将是真实环境的模型,但不一定是这种情况,即您可能只想在模拟中行动(例如 Atari 游戏)),或者,当它确实是 MDP 的模型时,但在这种情况下,您可以将其称为模型估计。

所以,你可以称它为

  • 采样功能,以防您从经验回放中采样
  • 环境函数,以防万一rs由环境返回,
  • 模型估计,如果它是一个估计p(ss,a)(人们可能会考虑重演模型估计的经验,或者至少是可用于构建模型估计的信息)

要记住的重要一点是,如果你想采取行动a处于某种状态s, 你需要一个返回奖励的函数r和下一个状态s,如果你想做强化学习。

我不知道文献中是否强调了这种区别,但是,正如您所指出的,您可以通过探索世界来学习/估计(过渡)模型。几年前我在这里问过一个相关的问题。您还可以估计奖励函数,它有时包含在环境的“模型”中,在这种情况下,表示为p(s,rs,a)而不仅仅是p(ss,a),但这些项可以写成彼此的函数。

人们也可能将此环境功能与探索性政策混淆,因为它们在某种程度上都用于探索,但我认为这些概念足够不同,因为探索性政策是根据您当前的知识决定如何行动的一种方式或无知:探索性策略可以被视为一种行使/调用环境功能的方式。