什么是强化学习中的“轨迹”?
人工智能
强化学习
术语
2021-10-22 21:31:04
3个回答
在您链接的答案中,我可能使用了“轨迹”的非正式定义,但与引用基本相同。“轨迹”是在一组连续的时间戳上、从单个情节或连续问题的单个部分发生的事情的序列(就状态、动作、奖励而言)。
所以取自在问题环境中使用代理的任何场景都将是一个轨迹 - 至少正如我在答案中所预期的那样。这可能来自真实世界的数据或模拟。它可能涉及完全随机或未经训练的代理,或完全优化的策略。
在您发现的另一个定义中,对状态和视野的关注可能会使它略有不同,但实际上我怀疑这是同一件事,因为只知道状态并没有那么有用。Quora 的答案可能只是使用“代理通过状态空间的路径”作为描述相同数据的简写。
强化学习中的“地平线”是相对于时间步长的未来点,超出该时间点您不关心奖励(因此您将时间的奖励相加到)。固定范围可以用作折扣因子的替代方法,以限制连续问题中的奖励总和。它们也可以用于其他方法,但基本上意味着相同的事情 - 一个时间步长,超出该时间步长,您不会考虑发生的事情。
尼尔的回答很好,但我注意到严格翻译以下 Quora 的回答声明
在强化学习术语中,轨迹是代理通过状态空间直到地平线的路径
我们得到和
- 状态空间
- 初始时间
- 与特定事件相关的时间
所以根据 Quora 的回答作者,它应该只是状态的时间序列(没有动作和奖励)
轨迹只是一系列状态和动作。在 RL 中,目标是通过找到正确的轨迹来最大化奖励。
这意味着最大化不是立即奖励(由一个状态的一个动作引起),而是累积奖励(所有状态和动作:轨迹)
其它你可能感兴趣的问题