如果我们使用最大最小博弈树对游戏“2048”进行建模,那么从开始状态到最终状态的最大路径是多少?(假设游戏仅在棋盘已满时结束
这是我们应该准备将游戏实际建模为最大最小游戏树的子问题之一。但是我无法理解这个问题。
它实际上是接收 131072 作为残局的途径吗?
如果我们使用最大最小博弈树对游戏“2048”进行建模,那么从开始状态到最终状态的最大路径是多少?(假设游戏仅在棋盘已满时结束
这是我们应该准备将游戏实际建模为最大最小游戏树的子问题之一。但是我无法理解这个问题。
它实际上是接收 131072 作为残局的途径吗?
要为搜索建模 2048(或任何问题),您只需要几条信息。
首先请注意,2048 不适合 minimax,因为只有一个玩家!相反,您可以将其视为马尔可夫决策过程。不过,解决它的技术非常相似。基本上,您将搜索一名玩家,并在搜索的每一层插入“机会”节点。机会节点的值是其子节点的期望值。请注意,这会降低修剪的有效性,因此这可能意味着基于搜索的方法无法处理该问题。
虽然搜索在这里可能有效,但由于 2048 是一个相对简单的 MDP,您可能会更乐意使用专为此类问题设计的强化学习技术。Russell & Norvig对这两种方法都有很好的章节 (14-17)。