所有完全可观察的环境都是偶发的吗?

人工智能 定义 环境 诺维格罗素
2021-10-23 02:24:50

根据 Russell & Norvig 在 AIMA(第 2 版)第 41-44 页中对完全可观察环境的定义,只有当智能体需要零内存才能实现最佳性能时,环境才是完全可观察的,也就是说,所有相关信息都是可立即从感知环境中获取。

从这个定义和同一本书中对“情节”环境的定义来看,暗示所有完全可观察的环境实际上都是情节的,或者可以被视为情节的,这似乎并不直观,但从逻辑上可以得出定义。此外,即使可以观察到给定时间点的整个状态空间,也不能完全观察到随机环境,因为理性行动可能取决于必须记住的先前观察。

我错了吗?

1个回答

不,并非所有完全可观察的环境都是偶发的。让我们再次看一下书中的定义:

完全可观察的环境第 2.3.2 节

如果代理的传感器允许它在每个时间点访问环境的完整状态,那么我们说任务环境是完全可观察的。如果传感器检测到与行动选择相关的所有方面,则任务环境是有效的完全可观察的

情节环境第 2.3.2 节

在情节任务环境中,代理的体验被划分为原子情节。在每一集中,代理都会收到一个感知,然后执行一个动作。至关重要的是,下一集不依赖于前几集采取的行动。

请注意情节环境定义末尾的“关键”部分。国际象棋是一个完全可观察的环境,它不是偶发的(因此在本书的分类法中是连续的)。国际象棋是完全可观察的,因为玩家可以查看棋盘上所有活动棋子的位置,这是采取最佳行动所需的所有信息。但是国际象棋不是偶发的,因为玩家当前的走法取决于之前的所有走法,而当前的走法会在后面的回合中产生下游效应。

事实上,如果你看一下关于 pg 的书中的图 2.6。45,他们提供了三个完全可观察的顺序(即非情节)环境的例子:填字游戏、国际象棋和西洋双陆棋。当然还有很多。大多数游戏都是连续的,因为这是它们的主要吸引力——如何最好地安排我现在的动作以确保在未来战胜我的对手?