在 AlphaZero 中,数据集中保存了哪些策略,以及如何选择移动?
人工智能
强化学习
零字母
自我游戏
2021-11-15 13:17:10
1个回答
但是,我不确定保存了哪个策略
存储来自蒙特卡洛树搜索的策略,因为我们稍后可以通过将给定状态通过网络从网络中获取策略估计,该状态用于计算交叉熵损失以更新网络的策略(与均方求和)价值头的预测与实际价值/奖励之间的误差损失)。
选择政策负责人计算出的概率最高的举动不是更合乎逻辑吗?
取决于您执行的搜索次数,经过数千次模拟后,MCTS 会提供更好的结果,因为它接近极小极大树。
其它你可能感兴趣的问题