剧集、轨迹和推出之间有什么区别?

人工智能 强化学习 术语 比较
2021-10-24 00:27:43

我经常看到术语“情节”、“轨迹”和“推出”来指代基本相同的事物,即(状态、动作、奖励)的列表。这些术语之间是否有任何具体区别,或者它们可以互换使用?

在以下段落中,我将总结我目前对这些术语的稍微模糊的理解。请指出我的定义中的任何不准确或缺失的细节。

我认为情节有一个更具体的定义,它以初始状态开始并以终止状态结束,其中状态是初始状态还是终止状态的定义由 MDP 的定义给出。另外,我将一集理解为一系列(s,a,r)通过遵循特定策略与环境交互进行采样,因此它应该具有以完全相同的顺序发生的非零概率。

使用轨迹,我的含义不是很清楚,但我相信轨迹只能代表情节的一部分,也许元组也可以是任意顺序;即使通过与环境交互获得这样的序列的概率为零,也可以,因为我们可以说这样的轨迹发生的概率为零。

我认为rollout介于两者之间,因为我通常看到它用于指代一个采样序列(s,a,r)从给定策略下与环境的交互,但它可能只是情节的一部分,甚至是持续任务的一部分,在这种情况下谈论情节甚至没有意义。

1个回答

我真的不认为每个人都同意的所有这些术语都有固定的、不同的定义。在大多数情况下,它们将是可以互换的,如果有人真的在它们被认为具有至关重要的不同含义的情况下使用它们,他们可能应该在那里精确地定义它们。


我认为情节有一个更具体的定义,它以初始状态开始并以终止状态结束,其中状态是初始状态还是终止状态的定义由 MDP 的定义给出。另外,我将一集理解为一系列(s,a,r)通过遵循特定策略与环境交互进行采样,因此它应该具有以完全相同的顺序发生的非零概率。

同意这一点。

使用轨迹,我的意思不是很清楚,但我相信轨迹只能代表一个情节的一部分,也许元组也可以是任意顺序;即使通过与环境交互获得这样的序列的概率为零,也可以,因为我们可以说这样的轨迹发生的概率为零。

我真的想不出在哪些情况下讨论将元组打乱成任意顺序的轨迹是明智的。我仍然认为轨迹必须按照它们所经历的“正确”顺序。但我确实同意轨迹可以是小样本(例如,我们存储在体验回放缓冲区中的小体验序列)。因此,每一个完整的情节都是一个(长)轨迹,但不是每一个轨迹都是一个完整的情节(一个轨迹可以只是一个情节的一小部分)。

我认为 rollout 介于两者之间,因为我通常看到它用于指代一个采样序列(s,a,r)从给定策略下与环境的交互,但它可能只是情节的一部分,甚至是持续任务的一部分,在这种情况下谈论情节甚至没有意义。

我会说……通常,首次推出应该有一个“终端”状态作为结束,但也许不是一个剧集的真正“初始”状态作为开始。我们可能处于一集的中间,然后说我们“推出”,这对我来说意味着我们一直持续到一集结束。我认为这个术语不像强化学习中的其他两个术语那样常见,但在搜索/规划文献中更常见(特别是蒙特卡罗树搜索)。

也就是说,当我使用 MCTS 时,我经常喜欢限制我的推出,如果尚未达到最终状态,我会切断它们......所以这也不是一个明确的定义。

由于这个术语在 MCTS 和其他基于 Monte-Carlo 的算法中特别常用,我还将更大程度的随机性与术语“推出”联系起来。当我听到“情节”或“轨迹”时,我可以设想一个高度复杂的“智能”策略被用来选择动作,但当我听到“推出”时,我倾向于认为更大程度的随机性被纳入动作选择(可能是均匀随机的,或者可能使用一些计算成本低、简单的策略来偏离一致性)。同样,这实际上只是我在脑海中与该术语的关联,而不是一个清晰的定义。