Q-learning 和策略梯度方法之间有什么关系?

人工智能 强化学习 q学习 政策梯度 比较
2021-10-18 19:35:29

据我了解,Q-learning 和策略梯度 (PG) 是用于解决 RL 问题的两种主要方法。虽然 Q-learning 旨在预测在特定状态下采取的特定动作的奖励,但策略梯度直接预测动作本身。

然而,这两种方法对我来说似乎相同,即预测一个动作的最大奖励(Q-learning)等同于预测直接采取该动作的概率(PG)。损失反向传播的方式有什么不同吗?

2个回答

然而,这两种方法似乎与我相同,即预测一个动作的最大奖励(Q-learning)等同于预测直接采取该动作的概率(PG)。

这两种方法在理论上都是由马尔可夫决策过程结构驱动的,因此使用相似的符号和概念。此外,在简单的可解环境中,您应该期望这两种方法产生相同或至少等效的最优策略。

但是,它们在内部实际上是不同的。这些方法之间最根本的区别在于它们如何处理动作选择,无论是在学习时还是作为输出(学习策略)。在 Q-learning 中,目标是通过找到最大值从一组离散的动作中学习单个确定性动作。通过策略梯度和其他直接策略搜索,目标是学习从状态到动作的映射,该映射可以是随机的,并且在连续动作空间中起作用。

因此,策略梯度方法可以解决基于值的方法无法解决的问题:

  • 大而连续的动作空间。然而,对于基于值的方法,这仍然可以通过离散化来近似——这不是一个糟糕的选择,因为策略梯度中的映射函数在实践中必须是某种近似器。

  • 随机政策。基于价值的方法无法解决最优策略是随机的、需要特定概率的环境,例如剪刀/纸/石头。这是因为在 Q 学习中没有可训练的参数来控制动作概率,TD 学习中的问题表述假设确定性代理可以是最优的。

然而,像 Q-learning 这样的基于价值的方法也有一些优势:

  • 简单。您可以将 Q 函数实现为简单的离散表,这可以保证收敛。没有表格版本的策略梯度,因为您需要一个映射函数,它也必须具有相对于的平滑梯度。p(as,θ)θ

  • 速度。自举的 TD 学习方法通​​常比必须纯粹从环境中采样以评估进度的方法更快地学习策略。

您可能会关心使用一种或其他方法的其他原因:

  • 您可能想知道流程运行时的预计回报,以帮助与代理相关的其他计划流程。

  • 问题的状态表示更容易适用于价值函数或策略函数。价值函数可能与状态具有非常简单的关系,而策略函数非常复杂且难以学习,反之亦然

一些最先进的 RL 求解器实际上同时使用了这两种方法,例如 Actor-Critic。这结合了价值和策略梯度方法的优势。

OpenAI的本教程对不同的 RL 方法进行了很好的比较。
我将尝试总结 Q-Learning 和 Policy Gradient 方法之间的区别:

  1. 目标函数

    1. Q-Learning中,我们学习满足贝尔曼(最优)方程的 Q 函数。这通常通过最小化均方贝尔曼误差 (MSBE)作为损失函数来实现。然后使用 Q 函数来获得一个策略(例如,通过贪婪地选择具有最大值的动作)。
    2. 策略梯度方法直接尝试通过在策略梯度方向上采取小步骤来最大化预期回报。策略梯度是对策略参数的预期收益的导数
  2. 开启与关闭策略

    1. 策略梯度是作为对轨迹 ( ) 的期望得出的,它是通过样本均值估计的。为了获得梯度的无偏估计,必须从当前策略中对轨迹进行采样。因此,策略梯度方法是在策略方法。s1,a1,r1,s2,a2,...,rn
    2. Q-Learning只确保满足贝尔曼方程。这个等式必须适用于所有转换。因此,Q-learning 也可以使用从以前的策略中收集的经验,并且是脱离策略的
  3. 稳定性和样品效率

    1. 直接优化回报,从而优化给定任务的实际性能,策略梯度方法倾向于更稳定地收敛到良好的行为。确实在政策上,使他们的样本效率非常低。Q-learning找到一个保证满足贝尔曼方程的函数,但这并不能保证产生接近最优的行为。使用了一些技巧来提高收敛性,在这种情况下,Q-learning 的样本效率更高。