人工智能 - 所有完全可观察的环境都是偶发的吗？ - 吾爱随笔录

所有完全可观察的环境都是偶发的吗？

人工智能定义环境诺维格罗素

2021-10-23 02:24:50

根据 Russell & Norvig 在 AIMA（第 2 版）第 41-44 页中对完全可观察环境的定义，只有当智能体需要零内存才能实现最佳性能时，环境才是完全可观察的，也就是说，所有相关信息都是可立即从感知环境中获取。

从这个定义和同一本书中对“情节”环境的定义来看，暗示所有完全可观察的环境实际上都是情节的，或者可以被视为情节的，这似乎并不直观，但从逻辑上可以得出定义。此外，即使可以观察到给定时间点的整个状态空间，也不能完全观察到随机环境，因为理性行动可能取决于必须记住的先前观察。

我错了吗？

1个回答

不，并非所有完全可观察的环境都是偶发的。让我们再次看一下书中的定义：

完全可观察的环境（第 2.3.2 节）

如果代理的传感器允许它在每个时间点访问环境的完整状态，那么我们说任务环境是完全可观察的。如果传感器检测到与行动选择相关的所有方面，则任务环境是有效的完全可观察的

情节环境（第 2.3.2 节）

在情节任务环境中，代理的体验被划分为原子情节。在每一集中，代理都会收到一个感知，然后执行一个动作。至关重要的是，下一集不依赖于前几集采取的行动。

请注意情节环境定义末尾的“关键”部分。国际象棋是一个完全可观察的环境，它不是偶发的（因此在本书的分类法中是连续的）。国际象棋是完全可观察的，因为玩家可以查看棋盘上所有活动棋子的位置，这是采取最佳行动所需的所有信息。但是国际象棋不是偶发的，因为玩家当前的走法取决于之前的所有走法，而当前的走法会在后面的回合中产生下游效应。

事实上，如果你看一下关于 pg 的书中的图 2.6。45，他们提供了三个完全可观察的顺序（即非情节）环境的例子：填字游戏、国际象棋和西洋双陆棋。当然还有很多。大多数游戏都是连续的，因为这是它们的主要吸引力——如何最好地安排我现在的动作以确保在未来战胜我的对手？

其它你可能感兴趣的问题

上一篇音乐创作的最佳机器学习模型是什么？下一篇为什么“损失”会根据选择的时期数而变化？