雅达利的 MuZero 中的动作表现如何?

人工智能 深度学习 强化学习
2021-11-16 10:52:55

MuZero似乎使用两种不同的方法将动作编码到 Atari 游戏的平面中:

  1. 对于表示函数的输入动作,MuZero 将历史动作编码为简单的偏置平面,缩放为a/18, 在哪里18是 Atari 中有效动作的总数。(来自论文的附录 E)
  2. 对于动态函数的输入动作,Muzero 将一个动作编码为一个单热向量,该向量被适当地平铺到平面中(来自论文的附录 F)

我不太确定如何使用“偏置平面”一词。

关于第二个,我的理解是,作为一个例子,对于行动4,我们首先应用 one-hot 编码,这给了我们一个长度为零的向量18有一个在5-th 位置(因为有18行动)。然后我们平铺它并得到一个长度为零的向量36,其中的5-th 和23-rd 职位。最后,这个向量被重新整形为6×6飞机如下:

0,0,0,0,1,00,0,0,0,0,00,0,0,0,0,00,0,0,0,1,00,0,0,0,0,00,0,0,0,0,0

1个回答
  1. 偏置平面是处处等于常数的层a/18在哪里a是动作。因此,32 帧中的每一帧都有 3 帧用于 RGB,第四帧是用于 128 个输入层的偏置平面。这在网络架构部分进行了解释,其中提到这些操作是“广播”到飞机的。

  2. 为此,我没有确凿的证据,但我认为平铺矢量意味着将其平行副本排列成例如网格形状。换句话说,输入是 6x6x18,动作 1 表示为第一个平面中的所有 1,其余平面中的所有 0。您所描述的方式的一个问题是输入受到卷积的影响,但是没有内在的原因为什么第五个位置和第十一个动作(它们垂直彼此相邻)应该包含在同一个 3x3 过滤器应用程序中,但第五和第七(例如)动作不应该。