人工智能 - 强化学习有哪些选择？ - 吾爱随笔录

强化学习有哪些选择？

人工智能强化学习术语分层rl 半mdp 选项

2021-11-08 05:36:11

根据关于强化学习[1]的讲座（第 10 周），选项的概念允许更快地搜索代理的状态空间。由于在短时间内引入了许多新术语，因此讲座很难听懂。对我来说，选项的概念听起来有点像技能 [2]，也用于描述高级操作。

技能是对包含轨迹的选项的改进，还是两者相同？

我问是出于某种原因。正常的深度强化学习存在代理经常陷入死胡同的问题，例如在 Atari 模拟器上玩的 Montezuma's Revenge。选项框架有望解决这个问题。但是这个概念听起来有点太深奥了，除了 Nptel 讲座之外，没有其他人解释过这个想法。那么，它真的有用吗？

1个回答

选项是行动概念的概括。在 Richard Sutton 等人的论文Between MDPs and semi-MDPs: A framework for temporal abstraction inreinforcement learning (1998) 中，在强化学习的背景下引入了选项（或宏动作）的概念，以便捕捉某些动作由其他子动作组成的想法。上述论文的第 2 节正式定义了选项的概念，它是一个由启动集、策略和终止条件/集组成的元组。

上述论文的作者给出了选项的例子

选项的示例包括捡起一个物体、去吃午饭、去一个遥远的城市旅行，以及诸如肌肉抽搐和关节扭矩之类的原始动作。

捡起一个物体，去吃午饭，去一个遥远的城市旅行的选项是由其他子动作组成的（例如捡起一个物体），但它本身就是一个动作（或宏观动作）。原始动作（例如关节扭矩）本身就是一种选择。

在 MDP 上定义的一组选项构成了半马尔可夫决策过程 (SMDP)，它们是 MDP，其中动作之间的时间不是恒定的，而是可变的。换句话说，半 MDP (SMDP) 是 MDP 概念的扩展，用于处理存在不同抽象级别的操作的问题。例如，考虑一名需要踢任意球的足球运动员。“踢任意球”动作涉及一系列其他动作，如“跑向球”、“看墙”等。“踢任意球”动作需要可变数量的时间步长（取决于其他子动作）。

因此，半 MDP 用于处理涉及不同抽象级别的操作的此类问题。分层强化学习(HRL) 是强化学习的概括（或扩展），其中环境被建模为半 MDP。

奇怪的是，某些赢得RoboCup（著名的 AI 足球）背景的模型是基于 semi-MDP、期权和 HRL 的概念。参见例如WrightEagleBASE，它使用MAXQ-OP（MAXQ 在线规划）算法。

半 MDP 可以转换为 MDP。下图（是上述论文的图 1 的屏幕截图，介绍了 RL 中的“选项框架”）说明了 semi-MDP 和 MDP 之间的关系。

空圆圈（中间）是选项，而黑色圆圈（顶部）是原始动作（它们本身就是选项）。

在问题中提到的具有策略梯度的运动技能的强化学习论文中，显然，技能一词没有正式定义。但是，我认为技能可以表示为选项。

其它你可能感兴趣的问题

上一篇为什么神经网络不能学习指定域之外的函数？下一篇为什么全卷积网络可以接受任意大小的图像？