人工智能 - 为什么 AlphaGo Zero 选择基于指数访问计数移动？ - 吾爱随笔录

人工智能强化学习阿尔法零

2021-11-12 06:47:18

在AlphaGo Zero 论文中，AlphaGo Zero 使用树搜索中的指数访问计数。

为什么使用访问次数而不是平均操作值 $Q(s, a)$ ?

1个回答

答案出人意料地隐藏在最初的 AlphaGo论文中：

在搜索结束时，AlphaGo 选择访问次数最多的动作；与最大化动作价值相比，这对异常值不太敏感。

不幸的是，论文或相关参考文献中似乎没有进一步的细节。具有最大访问次数的根子节点（对应于一个动作）被恰当地称为鲁棒子节点，如此处所述并在此处的MCTS 调查中引用。

其它你可能感兴趣的问题