在AlphaGo Zero 论文中,AlphaGo Zero 使用树搜索中的指数访问计数。
为什么使用访问次数而不是平均操作值?
在AlphaGo Zero 论文中,AlphaGo Zero 使用树搜索中的指数访问计数。
为什么使用访问次数而不是平均操作值?
答案出人意料地隐藏在最初的 AlphaGo论文中:
在搜索结束时,AlphaGo 选择访问次数最多的动作;与最大化动作价值相比,这对异常值不太敏感。
不幸的是,论文或相关参考文献中似乎没有进一步的细节。具有最大访问次数的根子节点(对应于一个动作)被恰当地称为鲁棒子节点,如此处所述并在此处的MCTS 调查中引用。