我正在尝试学习强化学习技术。我在大学里几乎没有机器学习方面的背景,但我只是在 MNIST 数据库上使用 CNN。
我的第一个项目是在井字游戏上使用强化学习,结果很顺利。
在这个过程中,我考虑过创建一个可以玩《万智牌》、 《游戏王》等纸牌游戏的 AI 。但是,我需要想办法定义一个动作空间。不仅在一个牌组中可能有数千种牌组合,而且我们还必须担心机器正在玩和对抗的各种类型的牌组。
虽然我知道这对于初学者来说可能太高级了,但我发现尝试这样的项目,具有挑战性和刺激性。因此,我研究了几种不同的方法来定义动作空间。但我不认为这个例子属于一个连续的动作空间,或者当它们不相关时我可以删除它们。
我在这个堆栈交换上发现了这篇文章,似乎在问同样的问题。但是,我找到的答案似乎并没有解决我的任何问题。
将动作空间定义为另一个级别的游戏状态不会掩盖完全相同的问题吗?
我的主要问题归结为:
有没有一种简单/首选的方法可以为像万智牌这样复杂的游戏制作动作空间?或者,我还没有看到在此处更好地使用另一种技术(RL 除外)?