这个问题来自我构建基于 cnn 的井字游戏的实验,我将其用作初学者机器学习项目。该游戏仅适用于政策网络,更具体地说 -
- 在训练期间,在每场比赛结束时,它会根据获胜者/抽奖者为每个棋盘位置所做的移动来训练自己。也就是说,它的训练数据包括棋盘位置和获胜玩家在每个位置上的移动。
- 在玩游戏时,它仅根据该训练来预测自己的移动(即,它预测获胜玩家在当前棋盘上的移动)。它不使用任何类型的搜索或价值网络。
我看到,如果我对一个每次都预测完美动作(使用递归搜索)的玩家进行训练,人工智能会擅长绘制大约 50% 的游戏。但是如果我针对一个随机移动的玩家训练它,它根本不会变得更好。
不管对手的水平如何,人们不会期望它学得很好(即使速度较慢)吗?由于每场比赛都以平局或一位玩家获胜而告终,即使从随机玩家那里学习,它是否也应该能够提取获胜/平局策略的特征?或者这种行为是否意味着模型不是最优的?