MuZero似乎使用两种不同的方法将动作编码到 Atari 游戏的平面中:
- 对于表示函数的输入动作,MuZero 将历史动作编码为简单的偏置平面,缩放为, 在哪里是 Atari 中有效动作的总数。(来自论文的附录 E)
- 对于动态函数的输入动作,Muzero 将一个动作编码为一个单热向量,该向量被适当地平铺到平面中(来自论文的附录 F)
我不太确定如何使用“偏置平面”一词。
关于第二个,我的理解是,作为一个例子,对于行动,我们首先应用 one-hot 编码,这给了我们一个长度为零的向量有一个在-th 位置(因为有行动)。然后我们平铺它并得到一个长度为零的向量,其中的-th 和-rd 职位。最后,这个向量被重新整形为飞机如下: