来自MuZero 论文(附录 E,第 13 页):
在国际象棋中,8 个平面用于对动作进行编码。第一个 one-hot 平面编码了该块是从哪个位置移动的。接下来的两个平面编码棋子移动到的位置:一个单热平面编码目标位置,如果在棋盘上,第二个二进制平面指示目标是否有效(在棋盘上)。这是必要的,因为为简单起见,我们的策略动作空间枚举了所有可能动作的超集,并非所有动作都是合法的,并且我们使用相同的动作空间进行策略预测并对动态函数输入进行编码。剩下的五个二元平面用于指示晋升的类型,如果有的话(女王、骑士、主教、车、无)。
第二个二元平面是全零还是全一?或者是其他东西?怎么知道此举是否在董事会之外?对于我的游戏,我知道这是否是棋盘上的合法棋步,但不知道棋盘是否是棋盘外棋步。