我的问题源于解决看似简单的游戏的挑战。为了节省您完整的规则目录,这里是游戏的简短摘要:
- 单人纸牌游戏
- 你通过一副标准的牌,需要为每张牌选择一个动作(不知道下一张牌)
- 对于每一个选择,你都有很大的可能性(大约 15 叠)来应用卡片 - 给定特定的套装和等级组合,你可以获得积分(很多规则基础 - 因此这个描述代表了游戏的要点设置)
如果牌是已知的,你可以(通过反向传播)计算出完美的选择,以获得最大的分数。直觉上,我尝试编写一个算法来模拟未来尽可能多的动作,以确定最佳选择。即使使用各种剪枝前和剪枝后的方法(例如微不足道的 mini-max),以半可靠的方式计算一个决策也需要数小时(考虑到大多数奖励仅在选择后大约 15 步以上“看到”) .
在过去的几周里,我放弃了这种基本方法,继续寻找可行的强化学习想法。至少可以说,由于各种问题,我感到完全迷失了,即将“卡数”整合到我的状态空间中。我应该包括剩余卡片的完整跟踪(更详细)还是恢复到众所周知的实现(例如 Blackjack 中的 Hi-Lo System.. 与这个项目有很多相似之处)。
总而言之,我想寻求一个有用的建议,以解决自我强化学习的巨大状态空间(“连续”?)问题。我偷看了 DeepQ 学习或类似的东西,但找不到关于像二十一点这样的单人纸牌游戏需要你保持纸牌计数的好的文献。除此之外,延迟的奖励使得与此类项目进行比较变得更加困难。