数据挖掘 - Q 学习二十一点，奖励功能？ - 吾爱随笔录

我目前正在学习强化学习，并且已经建立了一个二十一点游戏。

游戏结束时有明显的奖励（支付），但有些动作不会直接导致奖励（数到 5），即使最终结果是否定的（输掉一手牌），也应该鼓励这种做法.

我的问题是这些行为应该得到什么奖励？

对于不会导致失败的击球，我可以硬编码一个积极的奖励（赢得一手牌的奖励的一部分），但感觉好像我没有正确解决问题。

此外，当我为获胜分配奖励时（在牌局结束后），我会更新与最后一个动作/状态对对应的 q 值，这似乎不是最理想的，因为这个动作可能不会直接导致获胜。

我认为的另一种选择是为序列中的所有动作/状态对分配相同的最终奖励，但是，即使会导致输手，也应该鼓励某些动作（例如击中计数 <10）。

注意：我的最终目标是将深度强化学习与 LSTM 结合使用，但我是从 q-learning 开始的。