具有均匀随机动力学的强化学习

人工智能 强化学习 马尔可夫决策过程
2021-10-24 06:37:01

假设我有一个 MDP(S,A,p,R)在哪里p(sj|si,ai)是统一的,即给定一个状态si和一个动作ai所有州sj是同样可能的。

现在我想为这个 MDP 找到一个最优策略。我可以只应用策略梯度、actor-critic 等常用方法来找到这个 MDP 的最优策略吗?或者有什么我应该担心的吗?

至少,从理论上讲,它不应该有任何区别。但我想知道有什么实际的考虑我应该担心吗?在这种情况下,折扣系数应该很高吗?

这里的奖励函数取决于状态和动作,并且不是均匀随机的。

2个回答

基本 RL 算法(如策略梯度/actor-critic 方法)的收敛保证不对 MDP 的动态做出任何假设。所以,理论上,你不需要改变太多。

实际上,当任何给定状态的可能轨迹数量如此之多时,每个状态的回报都会有很大的差异。这意味着你必须收集更多的经验来估计预期回报以收敛到它们的真实值。直观地说,具有高度不确定性的环境需要智能体进行更多的知识收集以达到最佳行为。

我对你的真正建议取决于你到底想做什么。如果你想拥有一种能够在极其随机的环境中学会表现良好的代理那么你所需要担心的就是给它足够的经验来学习。

(您的代理还应该花一点时间才能确定它对不同状态的评估“有信心”。也就是说,在您确定您的估计准确之前不要贪婪。充分探索。这个建议只有在您的MDP 动态实际上并不完全一致。)

但是,如果您想专门训练一个 RL 代理来解决一个问题,该问题被表述为具有均匀随机动力学的 MDP,那么我会告诉您不要浪费时间。在进行计算之前,我们知道在这种情况下所有策略的好坏都一样。由于动作与环境无关,部署一个只会学习它所采取的动作无关紧要的 RL 代理将是低效的。


如评论中所述,最后一段仅在来自每个状态-动作对的奖励时才成立(s,a)也是均匀随机的。如果不是这样,只要意识到高方差并给你的代理人很多经验就可以了。

当下一个状态选择不受任何有意义的动态驱动时,即它独立于起始状态s和采取的行动a,但收到的奖励确实取决于sa,那么您描述的 MDP 也适合称为上下文强盗问题的问题,其中由于动作选择而无法控制状态,因此除了有可能立即获得奖励外,没有选择动作的动机。

任何能够解决完整 MDP 的算法也可以用于尝试解决上下文强盗问题,因为 MDP 框架是上下文强盗问题的严格更一般的情况,并且可以对这样的环境进行建模。但是,这通常效率低下,因为 MDP 求解器不对状态转换动态做出任何假设,并且需要体验和学习它们。虽然如果您从设计用于解决上下文老虎机问题的算法开始,则假设算法中内置了随机状态,不需要学习,学习过程应该更有效。

或者,如果您只有 RL 求解器可用,您可以通过设置折扣因子来减少方差并获得相同的有效策略,γ=0.

如果出于某种原因您仍然希望或需要从您的策略中进行长期贴现值预测,您可以取一些随机状态(如果它们足够少,甚至是所有状态)的平均预测值并乘以11γ对于您想知道的任何折扣因素。或者,如果预测时间范围,只需乘以时间范围的步数。