在完美信息博弈中,代理可以看到过去执行的所有动作。此外,它还可以观察对手将要付诸实践的下一个动作。
在这种情况下,我们可以说完美信息博弈实际上是一个完全可观察的环境吗?如果我们得出这个结论,我猜不完美的信息会变成一个部分可观察的环境?
在完美信息博弈中,代理可以看到过去执行的所有动作。此外,它还可以观察对手将要付诸实践的下一个动作。
在这种情况下,我们可以说完美信息博弈实际上是一个完全可观察的环境吗?如果我们得出这个结论,我猜不完美的信息会变成一个部分可观察的环境?
这里确实有一个密切的相似之处,但概念是不同的。每一个完美信息博弈都是完全可观测的,但并不是每一个完全可观测的博弈都是完美信息博弈。
不完全信息博弈是您缺乏以下任何知识的博弈:
相反,在部分可观察的过程中(特别是POMDP),要求是您不能知道自己处于哪个状态。
这是一个微妙的区别,所以这里有一些例子:
具有平稳分布的多臂老虎机游戏。在这里,您知道您处于哪个状态(实际上,如果分布是固定的,您就知道该状态不会改变,除了您的奖金值)。您不在 POMDP 中(游戏是完全可观察的),但您使用不完全信息进行操作,因为您不知道与不同动作相关的效用函数。您在常规 MDP 中运行。
国际象棋的博弈具有完全的信息,因此也是完全可观察的。
不完全是,至少在传统上:在博弈论中,“不完美信息”通常被定义为代理只有关于代理行为历史的部分信息,正如您正确指出的那样。但也要注意,这并不是指一般的世界事实或状态。
但是“部分可观察性”通常用于系统方面,例如在马尔可夫决策过程中,它明确地指代世界状态,这可能包括也可能不包括其他参与者行动的历史。
但当然,最终这取决于您正在查看的上下文中使用了哪些确切的定义 - 每个作者都可以自由定义自己的概念,使用传统名称或新名称。