SG是MDP对多个代理的推广。就像之前关于 MDP 的问题一样,是否有任何有趣的零和、离散 SG 示例——最好是具有小的状态和动作空间?我希望使用这样的例子作为基准,但在文献中找不到太多。我能想到的一个例子是图表上的追逃游戏。
国际概率规划竞赛中的一些领域,例如野生动物保护区基准,非常适合您给出的约束。请注意,这些问题是使用高级声明性语言RDDL建模的。这意味着您可以相对轻松地根据自己的意愿定义大小问题,因为您可以根据描述任意数量对象属性的函数对状态描述进行参数化。
还有一个非常有用的项目,它允许gym从环境、状态和动作的声明性描述中实例化 OpenAI 环境。
gym