我想知道如何为基于回合的棋盘游戏(如井字游戏、国际象棋、风险或任何其他基于回合的游戏)训练神经网络。通过推理获得下一步行动似乎非常简单,将游戏状态作为输入并将输出用作当前玩家的行动。然而,为此目的训练人工智能似乎并不那么简单,因为:
- 单招好不好可能没有评分,所以单招训练似乎不是正确的选择
- 使用整个游戏的所有游戏状态(输入)和移动(输出)来训练神经网络,似乎不是正确的选择,因为在输掉的游戏中并非所有移动都可能是坏的
所以我想知道如何为基于回合的棋盘游戏训练神经网络?我想使用 tensorflow 为井字游戏创建一个神经网络。