我正在阅读sutton barton 的强化学习教科书,并且遇到了二十一点游戏的有限马尔可夫决策过程 (MDP) 示例(示例 5.1)。
这个游戏的环境不是一直在变化吗?在这样的环境下,当你和庄家都抽牌时,转移概率如何确定?
我正在阅读sutton barton 的强化学习教科书,并且遇到了二十一点游戏的有限马尔可夫决策过程 (MDP) 示例(示例 5.1)。
这个游戏的环境不是一直在变化吗?在这样的环境下,当你和庄家都抽牌时,转移概率如何确定?
这个游戏的环境不是一直在变化吗?
代理和环境的当前状态在您玩游戏时不断变化,但不一定是转换概率。为简单起见,您可以假设转换概率不会改变(例如,如果您每次玩的庄家和牌组都相同)。
在这样的环境下,当你和庄家都抽牌时,转移概率如何确定?
经销商的行为将被纳入环境的转移概率中。每当玩家(或 RL 代理)采取行动时,它就会收到奖励,根据环境的奖励函数(游戏规则),代理和环境将移动到下一个状态,根据转移概率,不必改变随机性在环境中发生。事实上,这些转移概率已经包含了这种随机性。
此外,即使环境发生了变化,您仍然可以将问题建模为 MDP,但 MDP 会相应地发生变化。
本书的示例 5.1(您提到的)实际上详细解释了如何将此游戏制定为有限 MDP。