DQN - 目标价值与行动价值?

数据挖掘 深度学习 强化学习 q学习
2022-02-17 09:38:07

我试图了解Deep Q Networks 中目标值动作值之间的区别。

据我了解,动作价值试图近似于给定动作的奖励(在某些状态下)。目标值也是奖励的近似值。它们有何不同?

参考
- https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

1个回答

DQN 中的动作值目标值在衡量什么方面指的是同一事物,但获取和使用的方式不同。

一个动作值并不近似于给定动作的奖励,而是代表了预期回报的相关概念——采取动作时未来奖励的预期折扣总和a处于状态s. 你经常看到它与动作价值函数相关联q(s,a).

行动价值本身并不是近似的,它们比这更具概念性。然而,在强化学习 (RL) 的实践中,必须学习动作价值函数,并根据观察到的数据使用某种形式的近似值。当一个动作值函数在学习过程中被神经网络逼近时,你可能会看到它写成q^(s,a,θ)这明确表明 NN 正在逼近一些您不知道的“真实”函数,并且它由θ,神经网络的权重和偏差。

在学习过程中,代理采取行动并观察结果状态和奖励。它必须使用这些观察来改进其对值的估计。为了在 DQN 中这样做,代理构建了一个时间差异 (TD) 目标 - 对于单步 Q 学习,这是Gt:t+1=rt+1+γmaxaq^(st+1,a,θ). 这是“目标值”,有多种构建方法,从而产生了 RL 算法的变体。

价值Gt:t+1也是对预期回报的估计。从技术上讲,它是一个抽样估计,可能会有所不同并且可能存在偏差(由于神经网络的起始条件)。但是,它包含了一些真实的经验,因此可以用来通过训练来改进神经网络。您可以像使用与状态和动作相关的基本事实一样使用它来训练神经网络。

TD 目标或“目标值”之所以得名,是因为通过更新 Q 表或用它作为基本事实训练 NN,估计器将在未来输出更接近提供值的值。估计器“更接近目标”。