我有一个稳定的六角地图和回合制战争游戏,以二战航母战斗为特色。
在给定的回合中,玩家可以选择执行大量动作。动作可以有许多不同的类型,有些动作可以相互独立地执行,而另一些则具有依赖关系。例如,玩家可能决定移动一两个海军单位,然后将任务分配给或不分配给空军单位,然后调整或不调整一些战斗参数,然后重组或不重组海军特遣部队。
通常,棋盘游戏允许玩家每回合只执行一个动作(例如围棋或国际象棋)或一些非常相似的动作(双陆棋)。
在这里玩家可以选择
- 几个动作
- 动作性质不同
- 每个动作都可能有玩家必须设置的参数(例如强度、有效载荷、目的地)
我如何通过强化学习来解决这个问题?我将如何指定模型或有效地训练它来玩这样的游戏?
这是游戏的截图。
这是另一个。


