在强化学习中预测和控制什么?

机器算法验证 强化学习
2022-02-11 01:07:07

在强化学习中,我看到了很多关于控制预测的概念,比如蒙特卡洛预测和蒙特卡洛控制。

但我们实际上在预测和控制什么?

2个回答

预测和控制之间的区别与策略的目标有关。该策略描述了取决于当前状态的行为方式,并且在文献中通常被称为 ,即在状态中采取行动的概率。π(a|s)as

所以,我的问题是预测,预测什么?

RL 中的预测任务是提供策略的地方,目标是衡量它的执行情况。也就是说,假设函数是固定的,从任何给定状态预测预期的总奖励。π(a|s)

为了控制,控制什么?

RL 中的控制任务是策略不固定,目标是找到最优策略。也就是说,要找到最大化任何给定状态的预期总奖励π(a|s)

基于价值函数的控制算法(蒙特卡洛控制就是一个例子)通常通过解决预测问题来工作,即它预测以不同方式行动的价值,并调整策略以在每一步选择最佳行动。因此,基于价值的算法的输出通常是一个近似最优的策略,以及遵循该策略的预期未来回报。

术语控制来自动态系统理论,特别是最优控制。正如 Richard Sutton 在他的书 [1] 的1.7 Early History of Reinforcement Learning部分中所写的那样

一方面,最优控制和动态规划之间的联系,另一方面,学习之间的联系却很难被识别出来。我们无法确定造成这种分离的原因,但其主要原因可能是所涉及的学科及其不同目标之间的分离。

他甚至继续写作

我们认为最优控制中的所有工作在某种意义上也是强化学习中的工作。我们将强化学习方法定义为解决强化学习问题的任何有效方法,现在很明显,这些问题与最优控制问题密切相关,特别是随机最优控制问题,例如那些被表述为 MDP 的问题。因此,我们必须将优化控制的求解方法,如动态规划,也视为强化学习方法。

预测被描述为对于固定的任意策略的计算,其中vπ(s)qπ(s,a)π

  • vπ(s)是策略下的状态的值,给定一组通过跟随并经过获得的情节。sππs
  • qπ(s,a)是状态-动作对的动作值。这是从状态开始,采取行动,然后遵循政策时的预期回报。(s,a)saπ

控制被描述为近似最优策略。在进行控制时,一个人同时维护一个近似策略和一个近似值函数。价值函数被反复改变以更接近当前策略的价值函数,并且策略相对于当前价值函数被反复改进。这就是广义策略迭代(GPI)的思想。参见[1] 中的5.1 蒙特卡洛控制

[1] 强化学习:简介,Richard S. Sutton 和 Andrew G. Barto