纯基于策略卷积神经网络的游戏能否学得比对手玩得更好?

人工智能 神经网络 卷积神经网络
2021-10-22 04:40:00

这个问题来自我构建基于 cnn 的井字游戏的实验,我将其用作初学者机器学习项目。该游戏仅适用于政策网络,更具体地说 -

  1. 在训练期间,在每场比赛结束时,它会根据获胜者/抽奖者为每个棋盘位置所做的移动来训练自己。也就是说,它的训练数据包括棋盘位置和获胜玩家在每个位置上的移动。
  2. 在玩游戏时,它仅根据该训练来预测自己的移动(即,它预测获胜玩家在当前棋盘上的移动)。它不使用任何类型的搜索或价值网络。

我看到,如果我对一个每次都预测完美动作(使用递归搜索)的玩家进行训练,人工智能会擅长绘制大约 50% 的游戏。但是如果我针对一个随机移动的玩家训练它,它根本不会变得更好。

不管对手的水平如何,人们不会期望它学得很好(即使速度较慢)吗?由于每场比赛都以平局或一位玩家获胜而告终,即使从随机玩家那里学习,它是否也应该能够提取获胜/平局策略的特征?或者这种行为是否意味着模型不是最优的?

1个回答

(我会在评论中留下这个,但遗憾的是我不能。)

这是一篇很棒的论文(利用正式的博弈论),其中“玩家”根据每个事件(“移动”)做出战略选择,并且算法根据每个玩家在多阶段“游戏”中的能力为所有玩家计算最佳策略. 因此,与其从胜利中学习并预测玩家认为(基于学习)下一个完美的移动将导致“胜利”,玩家计算一个最佳策略并移动以通过多个移动赢得游戏本身。

https://users.ece.cmu.edu/~youzhib/paper/bao2017csf.pdf

注意:本文涉及网络战争游戏,因此严重偏向该领域,但如果您将博弈论和策略概念排除在像 ti-tac-toe 这样的多阶段游戏上,您应该能够提高您的整体结果。话虽如此,该模型如何适应具有随机动作的随机“玩家”将会很有趣。