我现在正在为棋盘游戏训练 alphazero 玩家。棋盘游戏的实现是我的,alphazero 的 MCTS 是在别处使用的。由于游戏的复杂性,自我游戏比训练花费的时间要长得多。
如您所知,alphazero 有 2 个头:价值和政策。在我的损失记录中,我看到随着时间的推移,价值损失正在显着减少。然而,保单损失仅表现出围绕其初始值的波动。
也许这里有人遇到过类似的问题?我想知道这是我的实施问题(但随后价值损失正在减少)还是只是数据不足的问题。
此外,也许重要的是,游戏理论上可能有大约 17k 步,但在任何单一状态下最多只有 80 步是合法的(想想国际象棋——很多可能,但在任何给定时间实际上很少有可能)。此外,如果 MCTS 有 20 个模拟,那么改进的概率向量(针对我们训练我们的策略损失)将最多有 20 个非零条目。我的想法是网络可能很难学习这样的稀疏向量。
谢谢你的任何想法!