在 Alpha Zero 的前 8 个动作之前会发生什么?

人工智能 文件 零字母
2021-11-03 17:02:15

Alpha 零论文说(在表 S1 的标题中)

第一组特征对每个位置重复T=8- 步骤历史。

那么,在前 8 步之前会发生什么?他们只是重复起始位置吗?

1个回答

在第 13 页,就在链接论文的表 S1 下方,对此进行了解释(在我的末尾以粗体强调):

每组平面代表一个时间步长的棋盘位置tT+1,,t并且对于小于的时间步长设置为零1.


我怀疑他们在那里编写的解决方案确实比仅重复起始位置最多 8 次更好。直观地说,您会希望神经网络学会主要关注当前的游戏状态。如果起始位置在这些平面上重复了很多次,神经网络在前几个步骤的学习过程中无法区分它们中的任何一个,并且可能开始平等地依赖它们。只有在以后的时间步骤中,它才会“发现”它们有时是不相等的,并且最后一个可能是信息量最大的一个。如果前几个步骤中的“无用平面”全为零,那么在学习过程开始时就更容易忽略它们。

请注意,我怀疑这种差异实际上根本不重要,我怀疑基于上述直觉的学习速度只会有微小的差异。