因此,对于特定策略游戏的许多游戏,我有 4GB 的回合数据。似乎大多数有兴趣使用 ML 为回合制游戏构建 AI 的人使用强化学习来动态构建模型。
既然我已经有了非常好的数据,我可以使用监督学习来解决这个任务吗?
编辑:我正在考虑使用回归根据最终导致获胜的可能性为给定动作分配分数;这是正确的思考方式吗?
因此,对于特定策略游戏的许多游戏,我有 4GB 的回合数据。似乎大多数有兴趣使用 ML 为回合制游戏构建 AI 的人使用强化学习来动态构建模型。
既然我已经有了非常好的数据,我可以使用监督学习来解决这个任务吗?
编辑:我正在考虑使用回归根据最终导致获胜的可能性为给定动作分配分数;这是正确的思考方式吗?
也许解决这个问题的正确方法是对每一步进行子优化,即使它可以通过回归来完成,我建议使用决策树。
您拥有和优势:游戏由离散的步骤组成,因此您可以在每一刻“停止”并根据您的(可能是全面的)移动历史决定最佳移动。