在 Alpha Zero 的前 8 个动作之前会发生什么?
人工智能
文件
零字母
2021-11-03 17:02:15
1个回答
在第 13 页,就在链接论文的表 S1 下方,对此进行了解释(在我的末尾以粗体强调):
每组平面代表一个时间步长的棋盘位置,并且对于小于的时间步长设置为零.
我怀疑他们在那里编写的解决方案确实比仅重复起始位置最多 8 次更好。直观地说,您会希望神经网络学会主要关注当前的游戏状态。如果起始位置在这些平面上重复了很多次,神经网络在前几个步骤的学习过程中无法区分它们中的任何一个,并且可能开始平等地依赖它们。只有在以后的时间步骤中,它才会“发现”它们有时是不相等的,并且最后一个可能是信息量最大的一个。如果前几个步骤中的“无用平面”全为零,那么在学习过程开始时就更容易忽略它们。
请注意,我怀疑这种差异实际上根本不重要,我怀疑基于上述直觉的学习速度只会有微小的差异。
其它你可能感兴趣的问题