目标
我想创造一种人工智能来在棋盘游戏中与其他玩家竞争。
游戏说明
我有一个类似于“蛇和梯子”的棋盘游戏。你必须在你的对手之前到达最后的场地。但是这个游戏不是依靠运气(掷骰子)而是使用“食物”之类的东西。想走多远就走多远,但是搬家要花粮食(搬得越多,多出一块田地的费用就越高),而且只能在一些特殊的田地里得到粮食。而且没有任何蛇或梯子,因此您必须运行整个部分。还有一些规则,例如,您可以向后退,并且只有在您获得的“食物”少于一定数量并且有一些具有其他特殊效果的额外字段时才允许进入目标。
对于一名球员
如果只有一个玩家,因为在这个游戏中没有像“运气”这样的东西,理论上我可以计算每一种方法来找到唯一的最好的方法。实际上,我应该使用需要较少计算能力的算法。
对于两个或更多玩家
挑战来自其他玩家。我无法访问已经占用的领域。其他一些领域会根据我与其他玩家的相对位置给我奖金(我只会谈论两人游戏)。例如,只有当我在他身后时,那个特殊领域才会给我一些额外的食物。
我的问题
如果我有某种知道场地奖励的神经网络,我会给出我的位置、对手的位置、食物等(游戏状态),它会计算出介于 -100 之间的值,那将是理想的和 100(假设字段从 0 到 100)我应该走多少个字段(向前或向后)。
我读了一些关于 Q 学习、深度强化学习和深度神经网络的文章。这是解决我的问题的正确方法吗?如果有,你有什么更具体的想法吗?多个演员和根据无尽状态移动的无限可能性让我很难想到任何事情。还是有一种不同的、更好的方式从我身边溜走?