我不是 RL 方面的专家。我玩围棋已经有几年了。
我们先引用 AlphaZero 的论文:
除了 komi,围棋的规则对于颜色转置也是不变的;通过从当前玩家的角度代表棋盘来利用这些知识(参见神经网络架构)。
在围棋游戏中,除了棋盘表示之外,黑棋和白棋之间的区别是科米(黑方在最终计数中必须补偿白方先下棋的点数)。除了科米的存在,如果换颜色的话,相同位置下的策略应该没有区别。换句话说,给定一个状态s黑子和白子在棋盘上的数量,如果黑子先下的最优策略是π,那么如果棋盘上的棋子颜色交换,轮到白方,白方的最优策略应该是相同的π.
考虑到这一点,使用从自我/对手而不是黑/白的角度代表董事会的网络至少有两个优点。
首先是它可以防止网络在相同状态的两种表示下给出不一致的策略的可能性。考虑一个网络Fθ接受董事会代表的顺序(乙_ _), 和一个状态小号= (X吨,是吨)其中X吨是黑色石头的特征图和是吨是白子的特征图,轮到黑子了。现在考虑一个状态s'= (是吨,X吨)(即颜色翻转),轮到白色了。s和s'本质上是相同状态的表示(除了不影响最优策略的 Komi)。网络可能存在Fθ为这两种表示形式给出了不同的策略。然而,如果Fθ接受状态为(小号埃尔夫_ _, O p p o n e n t ),网络的输入将是相同的(除了 komi 特征)。
因此,这种表示将显着减少特征向量表示的状态数量(X吨,是吨),这将是训练神经网络的第二个优势。如果我们考虑在围棋中,相同的本地位置可能会以交换颜色出现在另一个位置,网络可以通过这种实现,将它们识别为相同的位置。状态数量的减少可能意味着网络所需的参数和功率显着下降。
AlphaGo 的其他训练实现也遵循使用相同状态的不同表示的相同原则,例如增加其训练数据以包括相同棋盘位置的旋转和反射。
然而,在国际象棋游戏中,情况就不同了。对于一个棋位,如果交换了棋子的颜色并轮到对手,这将是一个不同的状态,因为两种颜色的KING和QUEEN的位置不同。