在 Sutton & Barto 的Reinforcement Learning: An Introduction,第 54 页,作者将终端状态定义如下:
每个情节都以一个特殊的状态结束,称为终端状态
但作者也说:
这些情节都可以被认为以相同的最终状态结束,不同的结果具有不同的奖励。具有此类情节的任务称为情节任务。
我相信终端状态,非终端状态和普通正常状态之间也存在根本区别:
在情景任务中,我们有时需要将所有非终止状态的集合(表示为 S)与所有状态加上终止状态的集合(表示为 S+)区分开来。
在第一个引用中,终端状态似乎只是一个描述剧集最终状态的术语,但是,从第二个引用中,我了解到无论剧集的结果如何,终端状态都是相同的。如果我们考虑国际象棋游戏,我们会认为什么是终端状态?无论结果如何(输赢),如果达到,是否会结束比赛(将死)?但是,我们如何描述一种会导致平局的状态呢?如果我们说导致平局的状态是非终结状态,因为我们可以玩“无限”轮数而不会达到胜利或失败,因此不会达到终结状态,我们不是隐含地假设达到平局不是我们应该给予奖励(例如0)的结果吗?如果我们将导致平局的状态命名为终止状态,那么正常状态和非终止状态之间有什么区别?