人工智能 - 雅达利的 MuZero 中的动作表现如何？ - 吾爱随笔录

MuZero似乎使用两种不同的方法将动作编码到 Atari 游戏的平面中：

对于表示函数的输入动作，MuZero 将历史动作编码为简单的偏置平面，缩放为 $a/18$ ，在哪里 $18$ 是 Atari 中有效动作的总数。（来自论文的附录 E）
对于动态函数的输入动作，Muzero 将一个动作编码为一个单热向量，该向量被适当地平铺到平面中（来自论文的附录 F）

我不太确定如何使用“偏置平面”一词。

关于第二个，我的理解是，作为一个例子，对于行动 $4$ ，我们首先应用 one-hot 编码，这给了我们一个长度为零的向量 $18$ 有一个在 $5$ -th 位置（因为有 $18$ 行动）。然后我们平铺它并得到一个长度为零的向量 $36$ ，其中的 $5$ -th 和 $23$ -rd 职位。最后，这个向量被重新整形为 $6\times 6$ 飞机如下：

0, 0, 0, 0, 1, 0 0, 0, 0, 0, 0, 0 0, 0, 0, 0, 0, 0 0, 0, 0, 0, 1, 0 0, 0, 0, 0, 0, 0 0, 0, 0, 0, 0, 0

$0, 0, 0, 0, 1, 0\\ 0, 0, 0, 0, 0, 0\\ 0, 0, 0, 0, 0, 0\\ 0, 0, 0, 0, 1, 0\\ 0, 0, 0, 0, 0, 0\\ 0, 0, 0, 0, 0, 0$