强化学习中完全观察到的状态特征和部分观察到的状态特征有什么区别?

数据挖掘 强化学习
2022-02-28 15:59:50

当我们使用函数来近似 Q 值或策略到状态-动作对时,我们会听到上述两个术语完全和部分观察到的特征有什么不同 。通常在 Atari Games 中,它们通过获取帧的当前像素分布来生成 Q 值。

1个回答

完全观察到的状态意味着没有隐藏信息。这方面的明显例子是国际象棋和围棋,因为两个玩家都掌握了所有信息。这两个游戏都是确定性的这一事实并不重要。状态变化是随机的游戏仍然可以完全观察到。像扑克这样的游戏,两个玩家都可以观察自己的牌,但不能观察对手的牌,这被称为部分可观察的。这方面的其他示例可能是实时战略游戏,例如星际争霸,您只能在单位的视线范围内看到。