连续状态空间无模型方法的策略评估如何工作?

人工智能 强化学习 深度学习 蒙特卡罗方法 无模型方法 政策评估
2021-11-11 13:14:28

连续状态空间无模型方法的策略评估如何工作?

理论上,离散状态和动作空间的基于模型的方法可以通过动态规划和求解贝尔曼方程来计算。

假设您使用 DQN 查找另一个策略,那么无模型策略评估如何工作?我正在考虑蒙特卡洛模拟,但这需要很多情节。

1个回答

连续状态空间无模型方法的策略评估如何工作?...假设您使用 DQN 查找另一个策略,那么无模型策略评估如何工作?

政策评估是确定状态价值的过程vπ(s)或行动价值qπ(s,a)当前政策的功能。在没有环境模型的连续状态和动作空间的上下文中,策略评估必须结合代理的过去经验而不是模型动态,并且通常会使用函数逼近器(例如神经网络)来估计动作值。许多流行的方法将在线更新应用于函数逼近器;例如,DQN 结合了 Temporal-Difference 目标和梯度下降来改变神经网络的权重和由此产生的动作值估计。自从

  • 我们在每个梯度下降步骤中逐渐改变神经网络的权重,
  • 估计的动作值仅取决于神经网络的权重,
  • 当前策略完全依赖于估计的动作值(例如 DQN 采取具有最大动作值的动作),

然后策略评估(更新估计的动作值函数以更好地匹配当前策略下的真实动作值函数)和策略改进(基于新估计的动作值函数贪婪地改变当前策略)在每个梯度下降时同时发生步在 DQN 中,梯度下降步骤发生在每个时间步。

我正在考虑蒙特卡洛模拟,但这需要很多情节。

改变动作价值函数后,我们可能会得到一个新的策略。我们假设旧策略的动作价值函数与新策略相似(尽管不能保证),因为神经网络的权重变化很小因此,我们使用旧策略的估计动作价值函数作为新策略的动作价值函数的初始估计。具体来说,我们使用与初始近似具有相同权重的相同神经网络这在计算上很方便,因为它避免了从头开始下一次策略评估更新的需要(例如,在痛苦的大量情节上进行蒙特卡罗模拟)。

理论上,离散状态和动作空间的基于模型的方法可以通过动态规划和求解贝尔曼方程来计算。

使用旧策略的估计动作值作为新策略动作值的初始估计的相同技术被一些动态规划方法(例如值迭代)采用,尽管动态已知。广义策略迭代(GPI) 是让策略评估和策略迭代在手头问题认为必要的任何粒度上交互的概念。采用 GPI 范式的一个结果是选择在动作价值函数收敛之前停止策略评估。许多深度强化学习算法将这一点发挥到了极致,并在单个梯度下降步骤中同时执行策略评估和策略改进。供参考,萨顿和巴托的第 4 章提供了这些想法的简要总结。