我试图了解决斗 DQN 的目的。根据这篇博文:

我们的强化学习代理可能不需要在任何给定时间同时关心价值和优势——这似乎是我无法理解的。
假设我们处于状态我们选择一个得分最高的动作。这是我们承诺的总回报,如果我们采取行动,我们将在未来获得。
注意,我们还不知道未来状态的 V 或 A (我们将在采取最佳行动后结束),因此在任何状态下解耦 V 和 A,包括 S_{t+1} 似乎都是不必要的。此外,一旦我们开始与他们合作,我们似乎仍然会在 正如博文中所指出的那样,转换为单个 Q 值。
所以,为了完成我的想法:V 和 A 似乎是一个“隐藏的中间步骤”,它仍然组合成 Q,所以我们永远不知道它甚至在那里。即使网络以某种方式从其中一个或另一个中受益,如果两个流仍然以 Q 结尾,它有什么帮助?
有点不切实际的想法,'V'只是当前状态的分数。'A' 是特定行动的总未来预期优势,对吗?
有人可以为日落提供一个不同的例子吗?
接受答案后编辑:
在此处找到有关此架构的友好解释。
此外,如果有人难以理解 V、Q 和 A 是什么,请阅读此答案以及我在其下的评论。