Sutton 和 Barto 的书《强化学习:简介》将强化学习中的模型定义为
模仿环境行为的东西,或者更一般地说,允许推断环境行为的东西。
在这个答案中,回答者做出了区分:
大致有两种类型的模型:
提供所有事件概率的分布模型。最通用的功能可能是这是获得奖励的概率并过渡到状态以状态开始并采取行动.
产生奖励的采样模型和下一个状态当给定当前状态时和行动. 样本可能来自模拟,或者只是取自学习算法迄今为止所经历的历史。
主要区别在于,在采样模型中,我只有一个黑匣子,给定一定的输入,生成输出,但我对 MDP 的概率分布一无所知。然而,有了一个采样模型,我可以通过运行数千个实验(例如蒙特卡洛树搜索)来重建(近似)概率分布。
另一方面,如果我有一个分布模型,我总是可以从中采样。
我想知道如果
我写的是正确的;
这种区别已在文献中得到体现,我可以在其中找到有关该主题的更深入讨论;
有人曾经将使用分布模型的基于模型的算法和仅使用采样模型的基于模型的算法分开。