据我所知(如果我错了,请纠正我),Alphazero(带有 MCTS 和神经网络启发式函数 RL)是基于回合的、确定性、完美信息、完整信息、两个玩家的最先进的训练方法,零和游戏。
但是,对于有 2 名玩家、完整信息且零和的回合制、不完全信息游戏来说,最先进的技术是什么?(确定性或随机性。)示例包括战舰和大多数 2 人纸牌游戏。
是否有标准游戏或其他测试来衡量?我为游戏类型提供的标准是否不够具体,无法正确缩小答案?
如果最先进的技术涉及监督学习(手动玩游戏的数据集),那么纯强化学习的最先进技术是什么,如果有的话?