在游戏过程中,在部分可观察的环境中是否需要蒙特卡洛树搜索?

人工智能 强化学习 蒙特卡罗树搜索 零字母 pomdp
2021-11-12 00:32:00

我知道,在完全可观察的环境(国际象棋/围棋等)下,您可以运行具有最佳策略网络的 MCTS,以用于未来的规划目的。这将允许您为游戏选择操作,这将导致从该状态获得最大预期回报。

但是,在部分可观察的环境中,我们还需要在游戏过程中运行 MCTS 吗?为什么我们不能在给定当前状态的情况下从训练好的最优策略中选择最大动作?MCTS 在这里提供什么实用程序?

我是强化学习的新手,正在尝试了解 MCTS / 规划在部分可观察环境中的目的。

0个回答
没有发现任何回复~