人工智能 - 完美和不完美的信息博弈是否分别被建模为完全和部分可观察的环境？ - 吾爱随笔录

人工智能比较马尔可夫决策过程博弈论 pomdp 不完全信息

2021-11-04 03:47:10

在完美信息博弈中，代理可以看到过去执行的所有动作。此外，它还可以观察对手将要付诸实践的下一个动作。

在这种情况下，我们可以说完美信息博弈实际上是一个完全可观察的环境吗？如果我们得出这个结论，我猜不完美的信息会变成一个部分可观察的环境？

2个回答

这里确实有一个密切的相似之处，但概念是不同的。每一个完美信息博弈都是完全可观测的，但并不是每一个完全可观测的博弈都是完美信息博弈。

不完全信息博弈是您缺乏以下任何知识的博弈：

相反，在部分可观察的过程中（特别是POMDP），要求是您不能知道自己处于哪个状态。

这是一个微妙的区别，所以这里有一些例子：

具有平稳分布的多臂老虎机游戏。在这里，您知道您处于哪个状态（实际上，如果分布是固定的，您就知道该状态不会改变，除了您的奖金值）。您不在 POMDP 中（游戏是完全可观察的），但您使用不完全信息进行操作，因为您不知道与不同动作相关的效用函数。您在常规 MDP 中运行。
国际象棋的博弈具有完全的信息，因此也是完全可观察的。
扑克游戏具有不完全信息，因为您无法观察游戏的当前状态（您看不到对手手中的牌）。因此，它是一个 POMDP。

不完全是，至少在传统上：在博弈论中，“不完美信息”通常被定义为代理只有关于代理行为历史的部分信息，正如您正确指出的那样。但也要注意，这并不是指一般的世界事实或状态。

但是“部分可观察性”通常用于系统方面，例如在马尔可夫决策过程中，它明确地指代世界状态，这可能包括也可能不包括其他参与者行动的历史。

但当然，最终这取决于您正在查看的上下文中使用了哪些确切的定义 - 每个作者都可以自由定义自己的概念，使用传统名称或新名称。

其它你可能感兴趣的问题