我目前正在学习强化学习,并且已经建立了一个二十一点游戏。
游戏结束时有明显的奖励(支付),但有些动作不会直接导致奖励(数到 5),即使最终结果是否定的(输掉一手牌),也应该鼓励这种做法.
我的问题是这些行为应该得到什么奖励?
对于不会导致失败的击球,我可以硬编码一个积极的奖励(赢得一手牌的奖励的一部分),但感觉好像我没有正确解决问题。
此外,当我为获胜分配奖励时(在牌局结束后),我会更新与最后一个动作/状态对对应的 q 值,这似乎不是最理想的,因为这个动作可能不会直接导致获胜。
我认为的另一种选择是为序列中的所有动作/状态对分配相同的最终奖励,但是,即使会导致输手,也应该鼓励某些动作(例如击中计数 <10)。
注意:我的最终目标是将深度强化学习与 LSTM 结合使用,但我是从 q-learning 开始的。