人工智能 - 终端状态，非终端状态和正常状态有什么区别？ - 吾爱随笔录

在 Sutton & Barto 的Reinforcement Learning: An Introduction，第 54 页，作者将终端状态定义如下：

每个情节都以一个特殊的状态结束，称为终端状态

但作者也说：

这些情节都可以被认为以相同的最终状态结束，不同的结果具有不同的奖励。具有此类情节的任务称为情节任务。

我相信终端状态，非终端状态和普通正常状态之间也存在根本区别：

在情景任务中，我们有时需要将所有非终止状态的集合（表示为 S）与所有状态加上终止状态的集合（表示为 S+）区分开来。

在第一个引用中，终端状态似乎只是一个描述剧集最终状态的术语，但是，从第二个引用中，我了解到无论剧集的结果如何，终端状态都是相同的。如果我们考虑国际象棋游戏，我们会认为什么是终端状态？无论结果如何（输赢），如果达到，是否会结束比赛（将死）？但是，我们如何描述一种会导致平局的状态呢？如果我们说导致平局的状态是非终结状态，因为我们可以玩“无限”轮数而不会达到胜利或失败，因此不会达到终结状态，我们不是隐含地假设达到平局不是我们应该给予奖励（例如0）的结果吗？如果我们将导致平局的状态命名为终止状态，那么正常状态和非终止状态之间有什么区别？