来自过程(最优)控制背景,我开始研究深度强化学习领域。
Sutton & Barto (2015) 指出
特别重要(对文本的写作)是建立和发展与最优控制和动态规划理论的关系的贡献
强调强化学习的要素——即策略、代理、环境等,(深度)RL 和最优控制理论之间的主要区别是什么?
在优化控制中,我们有控制器、传感器、执行器、设备等作为元素。这些是深度强化学习中相似元素的不同名称吗?例如,在深度强化学习中,最优控制工厂是否可以称为环境?
来自过程(最优)控制背景,我开始研究深度强化学习领域。
Sutton & Barto (2015) 指出
特别重要(对文本的写作)是建立和发展与最优控制和动态规划理论的关系的贡献
强调强化学习的要素——即策略、代理、环境等,(深度)RL 和最优控制理论之间的主要区别是什么?
在优化控制中,我们有控制器、传感器、执行器、设备等作为元素。这些是深度强化学习中相似元素的不同名称吗?例如,在深度强化学习中,最优控制工厂是否可以称为环境?
作为对 nbro 的好答案的补充,我认为 RL 和最优控制之间的主要区别在于您正在解决的问题背后的动机。正如此处的评论和答案(以及 OP)所指出的那样,RL 和最优控制之间的界限可能非常模糊。
考虑线性二次高斯 (LQG)算法,该算法通常被认为是一种最佳控制方法。在这里,给定环境的随机模型和成本函数来计算控制器。
现在,考虑 AlphaZero,它显然被认为是一种 RL 算法。AlphaZero 在具有已知确定性模型的完美信息设置中学习价值函数(因此也是策略/控制器)。
因此,正如一些人所相信的那样,将 RL 与最优控制区分开来的并不是随机性。这也不是已知模型的存在。我认为 RL 和最优控制之间的区别来自算法的通用性。
例如,一般来说,在应用 LQG 和其他最优控制算法时,您会考虑一个特定的环境,最大的挑战是对环境和奖励函数进行建模以实现所需的行为。另一方面,在 RL 中,环境通常被认为是一种黑盒子。虽然在 AlphaZero 的情况下,环境模型是已知的,但奖励函数本身并不是专门为国际象棋游戏设计的(例如,无论国际象棋、围棋、等等。)。此外,AlphaZero 的巧妙之处在于,我们可以用它在几乎任何完美信息博弈中训练智能体,而无需更改算法。这里与 RL 的另一个区别是代理迭代地改进自身,
Sutton 和 Barto的同一本书Reinforcement learning: an Introduction(第 2 版,2018 年)有一节,1.7 Early History of Reinforcement Learning,描述了最优控制是什么以及它与强化学习的关系。我将引用最相关的部分来回答您的问题,但是您应该阅读所有该部分以充分了解最优控制和强化学习之间的关系。
术语“最优控制”在 1950 年代后期开始使用,用于描述设计控制器以最小化或最大化动态系统随时间行为的度量的问题。1950 年代中期,理查德贝尔曼和其他人通过扩展 19 世纪的汉密尔顿和雅可比理论,开发了解决这个问题的方法之一。这种方法使用动态系统的状态和价值函数或“最优返回函数”的概念来定义函数方程,现在通常称为贝尔曼方程。通过求解该方程来求解最优控制问题的一类方法被称为动态规划(贝尔曼,1957a)。Bellman (1957b) 还介绍了最优控制问题的离散随机版本,称为马尔可夫决策过程 (MDP)。Ronald Howard (1960) 为 MDP 设计了策略迭代方法。所有这些都是现代强化学习理论和算法的基本要素。
回答您的具体问题。
在优化控制中,我们有控制器、传感器、执行器、设备等作为元素。这些是深度强化学习中相似元素的不同名称吗?例如,在深度强化学习中,最优控制工厂是否可以称为环境?
是的。在强化学习中(参见第 48 页所引用书籍的第一个脚注),术语控制通常用作动作的同义词。类似地,术语控制器(或决策者)被用作代理的同义词(有时也是策略的同义词,因为策略通常定义和控制代理,尽管代理的概念更抽象,我们可以联想到同一个代理的不止一项保单)。术语环境也用作受控系统(或工厂)的同义词。
另请参阅Csaba Szepesvari 和 Tor Lattimore所著的Bandit Algorithms一书的第38.8 节注释(第 530 页) 。