人工智能 - 在 Alpha Zero 的前 8 个动作之前会发生什么？ - 吾爱随笔录

在 Alpha Zero 的前 8 个动作之前会发生什么？

人工智能文件零字母

2021-11-03 17:02:15

Alpha 零论文说（在表 S1 的标题中）

第一组特征对每个位置重复 $T = 8$ - 步骤历史。

那么，在前 8 步之前会发生什么？他们只是重复起始位置吗？

1个回答

在第 13 页，就在链接论文的表 S1 下方，对此进行了解释（在我的末尾以粗体强调）：

每组平面代表一个时间步长的棋盘位置 $t - T + 1, \dots, t$ ，并且对于小于的时间步长设置为零 $1$ .

我怀疑他们在那里编写的解决方案确实比仅重复起始位置最多 8 次更好。直观地说，您会希望神经网络学会主要关注当前的游戏状态。如果起始位置在这些平面上重复了很多次，神经网络在前几个步骤的学习过程中无法区分它们中的任何一个，并且可能开始平等地依赖它们。只有在以后的时间步骤中，它才会“发现”它们有时是不相等的，并且最后一个可能是信息量最大的一个。如果前几个步骤中的“无用平面”全为零，那么在学习过程开始时就更容易忽略它们。

请注意，我怀疑这种差异实际上根本不重要，我怀疑基于上述直觉的学习速度只会有微小的差异。

其它你可能感兴趣的问题

上一篇为什么我们不能在每项翻译任务中使用谷歌翻译？下一篇通过反复试验学习的 AI 系统的名称是什么？