据我从 AlphaGo Zero 系统了解:
- 在 self-play 部分,MCTS 算法存储一个元组 (,,) 在哪里是状态,是状态中动作的分布概率,并且是一个整数,表示该状态所在游戏的获胜者。
- 网络将收到作为输入(描述状态的一堆矩阵) 并将输出两个值:和.是动作的分布概率,并且是一个值代表哪位玩家有可能赢得比赛。
- 对于训练,它将使用以下损失函数:
- 最后,它评估新网络并再次开始自我播放部分。
我的问题
如果网络只接收状态(表示为矩阵)作为输入,如果值和需要吗?
如果这些值确实作为网络的输入传递,它们是否通过了网络的卷积(和其他)层?因为如果这是真的,那么文章中就没有提到(除非我错过了)这个信息。