我经常看到术语“情节”、“轨迹”和“推出”来指代基本相同的事物,即(状态、动作、奖励)的列表。这些术语之间是否有任何具体区别,或者它们可以互换使用?
在以下段落中,我将总结我目前对这些术语的稍微模糊的理解。请指出我的定义中的任何不准确或缺失的细节。
我认为情节有一个更具体的定义,它以初始状态开始并以终止状态结束,其中状态是初始状态还是终止状态的定义由 MDP 的定义给出。另外,我将一集理解为一系列通过遵循特定策略与环境交互进行采样,因此它应该具有以完全相同的顺序发生的非零概率。
使用轨迹,我的含义不是很清楚,但我相信轨迹只能代表情节的一部分,也许元组也可以是任意顺序;即使通过与环境交互获得这样的序列的概率为零,也可以,因为我们可以说这样的轨迹发生的概率为零。
我认为rollout介于两者之间,因为我通常看到它用于指代一个采样序列从给定策略下与环境的交互,但它可能只是情节的一部分,甚至是持续任务的一部分,在这种情况下谈论情节甚至没有意义。