我正在阅读一些关于应用于棋盘游戏的深度神经网络的论文,例如围棋与 AlphaGo、AlphaGo Zero 以及其他一些游戏,例如奥赛罗和国际象棋。大多数作品都使用 CNN 作为直接移动预测器。我想使用井字游戏进行一些实验来实现 CNN,但我想将深度学习与竞争搜索算法结合起来,如 Minimax 或 Alpha-Beta Pruning(CNN 将是搜索算法的“启发式函数”或评估函数)。这样,搜索算法生成的每个叶子节点都会作为 CNN 的输入,CNN 会输出一个介于 -1 和 1 之间的数值(-1 旁边的值表示位置不好,1 旁边的值表示位置好)和返回搜索算法。那么,这样的做法有意义吗?有没有人尝试过这样的事情?
谢谢!