不,并非所有完全可观察的环境都是偶发的。让我们再次看一下书中的定义:
完全可观察的环境(第 2.3.2 节)
如果代理的传感器允许它在每个时间点访问环境的完整状态,那么我们说任务环境是完全可观察的。如果传感器检测到与行动选择相关的所有方面,则任务环境是有效的完全可观察的
情节环境(第 2.3.2 节)
在情节任务环境中,代理的体验被划分为原子情节。在每一集中,代理都会收到一个感知,然后执行一个动作。至关重要的是,下一集不依赖于前几集采取的行动。
请注意情节环境定义末尾的“关键”部分。国际象棋是一个完全可观察的环境,它不是偶发的(因此在本书的分类法中是连续的)。国际象棋是完全可观察的,因为玩家可以查看棋盘上所有活动棋子的位置,这是采取最佳行动所需的所有信息。但是国际象棋不是偶发的,因为玩家当前的走法取决于之前的所有走法,而当前的走法会在后面的回合中产生下游效应。
事实上,如果你看一下关于 pg 的书中的图 2.6。45,他们提供了三个完全可观察的顺序(即非情节)环境的例子:填字游戏、国际象棋和西洋双陆棋。当然还有很多。大多数游戏都是连续的,因为这是它们的主要吸引力——如何最好地安排我现在的动作以确保在未来战胜我的对手?