想象一下,代理在达到状态 𝑠 时会收到正奖励。一旦达到状态𝑠,与之相关的正奖励就会消失并出现在状态空间的其他地方,比如状态𝑠′。当代理访问该状态一次并重新出现在状态 𝑠 时,与 𝑠′ 相关的奖励也会消失。这会永远定期进行。在这个设置中,折扣 Q 学习会收敛到最优策略吗?是的,那里有任何证据,我找不到任何东西。
当奖励周期性变化时,Q-learning 会收敛到最优状态-动作函数吗?
人工智能
强化学习
q学习
2021-10-31 05:15:02
1个回答
不,它不会在一般情况下收敛(也许在非常方便的特殊情况下,不确定,没有足够认真地考虑......)。
实际上,强化学习理论中的所有内容(包括收敛证明)都依赖于马尔可夫属性;假设当前状态包括所有相关信息,历史导致不再相关。在你的情况下,这个属性被侵犯了;重要的是要记住我们是否访问过最近比.
我想如果您“增强”您的状态以使它们包含该信息,那么它应该再次收敛。这意味着你基本上将你的状态空间加倍。对于您在“正常”状态空间中的每个状态,您必须添加一个单独的副本,以便在以下情况下使用最近被访问过.
其它你可能感兴趣的问题