AlphaGo 论文中的推广策略是什么?
机器算法验证
机器学习
蒙特卡洛
强化学习
游戏
2022-03-21 21:55:11
1个回答
看来,策略网络在游戏状态中确定了可能移动。当程序搜索博弈树时,它以随机方式搜索,决定它如何搜索。希望这个功能将“引导”程序走向强者可能做出的好动作。这是有道理的,因为当您搜索游戏树时,以错误开头的分支在评估当前棋盘位置与聪明的对手时的相关性较低。
当他们说推出策略(我相信他们从西洋双陆棋中借用了术语“推出”)是线性 softmax 函数时,他们指的是逻辑回归中使用的 sigmoid 函数的泛化。该函数采用以下形式
其中是一个向量,它是当前棋盘位置的函数(根据论文,线性 softmax 仅用于策略网络的最后一步),是一个权重向量,它们共同确定策略的概率网络将选择动作。
其它你可能感兴趣的问题