在 Alpha Zero 论文 ( https://arxiv.org/pdf/1712.01815.pdf ) 第 13 页中,描述了 NN 的输入。在页面的开头,作者声明:
“神经网络的输入是 N x X x (MT + L) 图像堆栈 [...]”
由此,我了解到(对于一个训练示例)每个输入特征都是一个 8x8 平面。(从技术上讲,每个 8x8 平面的每个值都是一个特征,但出于问题的目的,我们假设一个平面是一个输入特征)。
在图像顶部的表格的描述中,做了以下陈述:
“[...] 计数由单个实值输入表示;其他输入特征由使用指定数量的二进制输入平面的 one-hot 编码表示。[...]”
我了解他们如何将 P1 和 P2 片段转换为 one-hot 编码。我的问题是:
- 当他们说单实值输入时,由于每个输入特征都应该是一个 8x8 平面,他们是否意味着他们创建了一个 8x8 平面,其中每个条目都具有相同的单实值?例如,对于“总步数”平面,如果到目前为止在游戏中已经进行了 10 步,它会像下面这样吗?
move_count_plane = [[10, 10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10, 10]]
- 'Repetitions'平面,是不是和上面一样?他们的意思是一个平面,其中每个值都是达到特定板设置的次数?例如,如果某个特定位置已到达 2 次,则该位置的重复平面将是
# for a specific timestep in the T=8 step history
repetitions_plane = [[2, 2, 2, 2, 2, 2, 2, 2],
[2, 2, 2, 2, 2, 2, 2, 2],
[2, 2, 2, 2, 2, 2, 2, 2],
[2, 2, 2, 2, 2, 2, 2, 2],
[2, 2, 2, 2, 2, 2, 2, 2],
[2, 2, 2, 2, 2, 2, 2, 2],
[2, 2, 2, 2, 2, 2, 2, 2],
[2, 2, 2, 2, 2, 2, 2, 2]]
? 另外,他们为什么要保留 2 个重复平面?每个玩家都有一个吗?(过去 T=8 的重复平面为 P1 移动,过去 T=8 的更多重复平面为 P2 移动?)
提前致谢。