AlphaGo 论文中的推广策略是什么?

机器算法验证 机器学习 蒙特卡洛 强化学习 游戏
2022-03-21 21:55:11

论文在这里

rollout 策略……是一种基于快速、增量计算、基于局部模式的特征的线性 softmax 策略……

我不明白什么是推出政策,以及它与选择行动的政策网络有何关系。有更简单的解释吗?

1个回答

看来,策略网络在游戏状态中确定了可能移动当程序搜索博弈树时,它以随机方式搜索,决定它如何搜索。希望这个功能将“引导”程序走向强者可能做出的好动作。这是有道理的,因为当您搜索游戏树时,以错误开头的分支在评估当前棋盘位置与聪明的对手时的相关性较低。p(as)asp

当他们说推出策略(我相信他们从西洋双陆棋中借用了术语“推出”)是线性 softmax 函数时,他们指的是逻辑回归中使用的 sigmoid 函数的泛化。该函数采用以下形式

eβiTxj=1keβjTx

其中是一个向量,它是当前棋盘位置的函数(根据论文,线性 softmax 仅用于策略网络的最后一步),是一个权重向量,它们共同确定策略的概率网络将选择动作xβiai