强化学习有哪些选择?

人工智能 强化学习 术语 分层rl 半mdp 选项
2021-11-08 05:36:11

根据关于强化学习[1]的讲座(第 10 周),选项的概念允许更快地搜索代理的状态空间。由于在短时间内引入了许多新术语,因此讲座很难听懂。对我来说,选项的概念听起来有点像技能 [2],也用于描述高级操作。

技能是对包含轨迹的选项的改进,还是两者相同?

我问是出于某种原因。正常的深度强化学习存在代理经常陷入死胡同的问题,例如在 Atari 模拟器上玩的 Montezuma's Revenge。选项框架有望解决这个问题。但是这个概念听起来有点太深奥了,除了 Nptel 讲座之外,没有其他人解释过这个想法。那么,它真的有用吗?

1个回答

选项是行动概念的概括在 Richard Sutton 等人的论文Between MDPs and semi-MDPs: A framework for temporal abstraction inreinforcement learning (1998) 中,在强化学习的背景下引入了选项(或宏动作)的概念,以便捕捉某些动作由其他子动作组成的想法。上述论文的第 2 节正式定义了选项的概念,它是一个由启动集策略终止条件/集组成的元组。

上述论文的作者给出了选项的例子

选项的示例包括捡起一个物体、去吃午饭、去一个遥远的城市旅行,以及诸如肌肉抽搐关节扭矩之类的原始动作。

捡起一个物体,去吃午饭,去一个遥远的城市旅行的选项是由其他子动作组成的(例如捡起一个物体),但它本身就是一个动作(或宏观动作)。原始动作(例如关节扭矩)本身就是一种选择。

在 MDP 上定义的一组选项构成了半马尔可夫决策过程 (SMDP),它们是 MDP,其中动作之间的时间不是恒定的,而是可变的。换句话说,半 MDP (SMDP) 是 MDP 概念的扩展,用于处理存在不同抽象级别的操作的问题。例如,考虑一名需要踢任意球的足球运动员。“踢任意球”动作涉及一系列其他动作,如“跑向球”、“看墙”等。“踢任意球”动作需要可变数量的时间步长(取决于其他子动作)。

因此,半 MDP 用于处理涉及不同抽象级别的操作的此类问题。分层强化学习(HRL) 是强化学习的概括(或扩展),其中环境被建模为半 MDP。

奇怪的是,某些赢得RoboCup(著名的 AI 足球)背景的模型是基于 semi-MDP、期权和 HRL 的概念。参见例如WrightEagleBASE,它使用MAXQ-OP(MAXQ 在线规划)算法

半 MDP 可以转换为 MDP。下图(是上述论文的图 1 的屏幕截图,介绍了 RL 中的“选项框架”)说明了 semi-MDP 和 MDP 之间的关系。

在此处输入图像描述

空圆圈(中间)是选项,而黑色圆圈(顶部)是原始动作(它们本身就是选项)。

在问题中提到的具有策略梯度的运动技能的强化学习论文中,显然,技能一词没有正式定义。但是,我认为技能可以表示为选项。