不完美信息 2 玩家回合制游戏的最先进 AI 训练技术是什么?

人工智能 人工智能设计 训练 博弈论 马尔可夫决策过程 不完全信息
2021-11-15 01:09:50

据我所知(如果我错了,请纠正我),Alphazero(带有 MCTS 和神经网络启发式函数 RL)是基于回合的、确定性、完美信息、完整信息、两个玩家的最先进的训练方法,零和游戏。

但是,对于有 2 名玩家、完整信息且零和的回合制、不完全信息游戏来说,最先进的技术是什么?(确定性或随机性。)示例包括战舰和大多数 2 人纸牌游戏。

是否有标准游戏或其他测试来衡量?我为游戏类型提供的标准是否不够具体,无法正确缩小答案?

如果最先进的技术涉及监督学习(手动玩游戏的数据集),那么纯强化学习的最先进技术是什么,如果有的话?

0个回答
没有发现任何回复~