终端状态,非终端状态和正常状态有什么区别?

人工智能 强化学习 比较 术语 马尔可夫决策过程 状态空间
2021-11-10 06:10:28

在 Sutton & Barto 的Reinforcement Learning: An Introduction,第 54 页,作者将终端状态定义如下:

每个情节都以一个特殊的状态结束,称为终端状态

但作者也说:

这些情节都可以被认为以相同的最终状态结束,不同的结果具有不同的奖励。具有此类情节的任务称为情节任务。

我相信终端状态终端状态和普通正常状态之间也存在根本区别:

在情景任务中,我们有时需要将所有非终止状态的集合(表示为 S)与所有状态加上终止状态的集合(表示为 S+)区分开来。

在第一个引用中,终端状态似乎只是一个描述剧集最终状态的术语,但是,从第二个引用中,我了解到无论剧集的结果如何,终端状态都是相同的。如果我们考虑国际象棋游戏,我们会认为什么是终端状态无论结果如何(输赢),如果达到,是否会结束比赛(将死)?但是,我们如何描述一种会导致平局的状态呢?如果我们说导致平局的状态是非终结状态,因为我们可以玩“无限”轮数而不会达到胜利或失败,因此不会达到终结状态,我们不是隐含地假设达到平局不是我们应该给予奖励(例如0)的结果吗?如果我们将导致平局的状态命名为终止状态,那么正常状态和非终止状态之间有什么区别

1个回答

终端状态总是相同的,因为它代表同一件事,即情节结束。它们不需要是完全相同的状态;例如你可以有一个n经过n网格世界,其中右上角和左下角状态是终端,当您到达这些状态时,您的代理就会死亡。这些都是终端但不是同一个状态。

对于国际象棋,它可以是到达游戏结束时的任何状态(无论赢/平/输)。这些最终状态之间的区别在于您将获得什么奖励。

最后,正常状态是非终结状态,所以没有区别。