策略梯度中价值函数逼近的稳定性

数据挖掘 神经网络 强化学习 政策梯度 演员评论家
2022-02-26 12:52:52

在 DQN 中,Q 值的函数逼近对于相关更新是不稳定的。在具有基线的策略梯度中,策略的价值函数不会受到相同的相关更新的困扰吗?

例如,在使用基线算法的 REINFORCE 中,更新按时间顺序应用于每个时间步。我知道在策略梯度中,目标是估计策略的价值,而不一定是整个状态空间;然而,在随机环境和/或随机策略下,并非所有状态都以相同的概率进行采样,从而导致过度拟合到特定轨迹,这意味着价值函数将不能用作策略其他轨迹的基线。是否有算法在拟合数据和/或收集成批的轨迹然后像在 DQN 中那样从批次中随机抽样之前对轨迹进行洗牌?

1个回答

简短的回答是肯定的。看看RL 的异步方法与从经验回放中采样有助于打破相关性的类似方式,异步方法基于让多个代理与同一环境的多个实例交互。

过程: 每个代理(称为worker之前收集自己的经验,并将其存储在一个批次中。然后网络通过使用该批次执行训练更新。更新后,每个工作人员都重置到与主服务器相同的网络,然后他们重新开始任务。更新可以是同步的(正如我在这里使用批处理描述的)或通过使用自己的参数训练多个代理然后异步更新主网络来异步更新。tmax

为什么这有帮助?每个代理的经验独立于其他代理的经验,因此更加多样化,这有助于降低相关性。

关于您的问题的一些附加评论:

  • Policy Gradients (PG) 的目标是根据一些参数优化预期奖励,这类似于对策略函数梯度的估计(由这些参数参数化)。
  • 在 RL 中,尤其是在 Policy Gradients 中,您主要处理三件事:状态样本相关性、梯度估计器的偏差和方差。基线的引入是为了在不引入任何偏差的情况下减少梯度估计器的方差。基线称为控制变量,用于减少 Monte Carlo 估计器(这里是我们的梯度估计器)中的方差,并且均值为零。