什么是强化学习中的“轨迹”?

人工智能 强化学习 术语
2021-10-22 21:31:04

我现在正在学习强化学习,但我刚刚在这个答案中找到了“轨迹”这个词。

但是,我不确定这意味着什么。我读了几本关于强化学习的书,但没有一本提到它。通常这些介绍性书籍会提到代理、环境、动作、策略和奖励,而不是“轨迹”。

那么,这意味着什么?根据Quora上的这个回答:

在强化学习术语中,轨迹τ是代理通过状态空间直到地平线的路径H. on-policy 算法的目标是最大化代理在轨迹上的预期奖励。

这是否意味着“轨迹”是从代理当前状态到剧集结束的最终状态(终端状态)的总路径?或者是别的什么?(我也不确定“地平线”是什么意思)。

3个回答

在您链接的答案中,我可能使用了“轨迹”的非正式定义,但与引用基本相同。“轨迹”是在一组连续的时间戳上、从单个情节或连续问题的单个部分发生的事情的序列(就状态、动作、奖励而言)。

所以(s3,a3,r4,s4,a4,r5,s5,a5,r6,s6)取自在问题环境中使用代理的任何场景都将是一个轨迹 - 至少正如我在答案中所预期的那样。这可能来自真实世界的数据或模拟。它可能涉及完全随机或未经训练的代理,或完全优化的策略。

在您发现的另一个定义中,对状态和视野的关注可能会使它略有不同,但实际上我怀疑这是同一件事,因为只知道状态并没有那么有用。Quora 的答案可能只是使用“代理通过状态空间的路径”作为描述相同数据的简写。

强化学习中的“地平线”是相对于时间步长的未来点,超出该时间点您不关心奖励(因此您将时间的奖励相加tt+H)。固定范围可以用作折扣因子的替代方法,以限制连续问题中的奖励总和。它们也可以用于其他方法,但基本上意味着相同的事情 - 一个时间步长,超出该时间步长,您不会考虑发生的事情。

尼尔的回答很好,但我注意到严格翻译以下 Quora 的回答声明

在强化学习术语中,轨迹τ是代理通过状态空间直到地平线的路径

我们得到τ={st}t[t0,tH]stS

  • S状态空间
  • t0初始时间
  • tH>t0与特定事件相关的时间H

所以根据 Quora 的回答作者,它应该只是状态的时间序列(没有动作和奖励)

轨迹只是一系列状态和动作在 RL 中,目标是通过找到正确的轨迹来最大化奖励。

maxτR(τ)

这意味着最大化不是立即奖励(由一个状态的一个动作引起),而是累积奖励(所有状态和动作:轨迹)