决斗 DQN - 无法理解其机制

数据挖掘 强化学习
2021-10-13 07:04:22

我试图了解决斗 DQN 的目的。根据这篇博文: 在此处输入图像描述

我们的强化学习代理可能不需要在任何给定时间同时关心价值和优势——这似乎是我无法理解的。

假设我们处于状态St我们选择一个得分最高的动作。这是我们承诺的总回报,如果我们采取行动,我们将在未来获得。

注意,我们还不知道未来状态的 V 或 A St+1(我们将在采取最佳行动后结束),因此在任何状态下解耦 V 和 A,包括 S_{t+1} 似乎都是不必要的。此外,一旦我们开始与他们合作,我们似乎仍然会在St+1 正如博文中所指出的那样,转换为单个 Q 值。

所以,为了完成我的想法:V 和 A 似乎是一个“隐藏的中间步骤”,它仍然组合成 Q,所以我们永远不知道它甚至在那里。即使网络以某种方式从其中一个或另一个中受益,如果两个流仍然以 Q 结尾,它有什么帮助?

有点不切实际的想法,'V'只是当前状态的分数。'A' 是特定行动的未来预期优势,对吗?

有人可以为日落提供一个不同的例子吗?

接受答案后编辑:

在此处找到有关此架构的友好解释。

此外,如果有人难以理解 V、Q 和 A 是什么,请阅读此答案以及我在其下的评论。

1个回答

一个稍微无关的想法,'V'只是当前状态的分数。'A' 是特定行动的总未来预期优势,对吗?

不完全的。V是总(折扣)未来预期奖励,假设从状态开始s,遵循当前的策略(在控制问题中,通常是迄今为止最佳策略的最佳猜测)到未来。这包括选择当前操作,a,根据正在评估的政策。优势功能A(s,a)(博客文章的论点是错误的A) 是选择之间的价值差异a根据当前政策并选择具体行动a. 的价值A还假设在此(可能是不同的)选择之后遵循当前策略到未来的所有未来奖励。请注意,当策略是最优策略时,并且V(s) 是准确的,那么 A(s,a)应始终为零或负数;最佳动作得分为零,非最佳动作得分为负。

即使网络以某种方式从其中一个或另一个中受益,如果两个流仍然以 Q 结尾,它有什么帮助?...有人可以为日落提供一个不同的例子吗?

更简单的解释是函数分解在技术上总是正确的(对于 MDP)。像这样对网络进行编码会将问题的已知结构合并到网络中,否则它可能不得不将资源用于学习。因此,这是一种将设计者关于强化学习问题的知识注入网络架构的方法。

从概念上讲,这类似于为具有局部感受野的计算机视觉设计 CNN,因为我们知道可以通过这种方式在图像中检测边缘和纹理。尽管 CNN 不仅有这样的好处,但视觉任务设计的积极方面之一是它们在结构上与正在解决的问题的已知特征相匹配。

基于值的 RL 控制方法(与策略梯度方法相反)由于“广义策略迭代”而起作用,其中代理不断评估策略的当前值,然后使用这些值估计来进行改进。之间的分裂VA功能在概念上非常适合。V通常正在调整功能以尽可能准确地评估当前政策,而在A功能识别政策可能发生的变化。