为什么 AlphaGo Zero 选择基于指数访问计数移动?

人工智能 强化学习 阿尔法零
2021-11-12 06:47:18

AlphaGo Zero 论文中,AlphaGo Zero 使用树搜索中的指数访问计数。

为什么使用访问次数而不是平均操作值(s,一个)?

1个回答

答案出人意料地隐藏在最初的 AlphaGo论文中

在搜索结束时,AlphaGo 选择访问次数最多的动作;与最大化动作价值相比,这对异常值不太敏感。

不幸的是,论文或相关参考文献中似乎没有进一步的细节具有最大访问次数的根子节点(对应于一个动作)被恰当地称为鲁棒子节点如此处所述并在此处MCTS 调查中引用