使用确定性策略的动机是什么?

人工智能 强化学习 确定性政策
2021-11-04 05:12:20

使用确定性策略的动机是什么?鉴于环境不确定,随机政策似乎更有意义。

1个回答

你说得对!在大多数情况下,在仍在学习的同时根据确定性策略行事将是一个糟糕的主意(“为您进行探索”的环境除外;请参阅评论)但是确定性政策是在政策外学习的。也就是说,用于学习确定性策略的经验是通过根据随机行为策略来收集的。

在一些合理的假设下——比如环境是完全观察到的并且是静止的——最优确定性策略总是存在的。证明可以在Martin L. Puterman的“马尔可夫决策过程——离散随机动态规划”的第 6 章中找到。对于随机策略而言,情况并非如此。对于这种环境(即使它是随机的),最优策略几乎不是随机的。

因此,想要学习确定性策略的动机通常是因为我们知道存在最优确定性策略。

您的问题也可能与政策外学习无关。“当我们可以使用像衰减这样的东西时,为什么要直接学习确定性策略(off-policy)ϵ-贪婪?”简而言之,离策略学习非常强大和通用。例如,在任何使用经验回放的算法中都是必要的。关于离策略学习的优点的讨论可能最好留给另一个问题,但阅读部分Sutton 和 Barto 的RL 书籍的 5.5应该可以帮助您入门。

最后,如果使用确定性策略梯度,直接学习确定性策略的计算效率会更高在具有连续状态和动作空间的设置中,确定性策略梯度存在并且比随机策略梯度具有更简单的期望。

随机策略梯度:

θJ(πθ)=Sρπ(s)Aθπθ(a|s)Qπ(s,a)dads=Esρπ,aπθ[θlogπθ(a|s)Qπ(s,a)]

确定性策略梯度:

θJ(μθ)=Sρμ(s)θμθ(s)aQμ(s,a)|a=μθ(s)ds=Esρμ[θμθ(s)aQμ(s,a)|a=μθ(s)]

请注意,确定性策略梯度中的期望不在行动空间上。在连续的高维动作空间的设置中,估计这个期望需要更少的样本。

回顾一下:

  • 最优策略通常是确定性的,而不是随机的
  • 直接学习确定性策略(off-policy)是强大且通用的
  • 如果在连续的高维动作空间中,它也可以更有效