决斗 DQN a' 是什么意思?

数据挖掘 强化学习 q学习
2022-02-13 06:52:44

做什么a在 Dueling DQN 中的“组合”方程中是什么意思?(第 5 页顶部)

Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)1NaNA(s,a;θ,α))

哪里有N可供选择的动作;

  • s是传入状态(输入向量)
  • a是否采取了行动?(选择的动作)
  • a我不知道它在这种情况下代表什么
  • θ表示卷积层的权重
  • α是输出向量的“优势流”的权重
  • β是价值流的权重(输出一个标量)

为什么不简单地使用a到处都是,为什么a平均使用?

1个回答

它只是一种命名空间,因为a已分配所选操作。等式中考虑了两个动作上下文,因此每个上下文都需要一个符号。使用a是一个明显的选择作为字母a已经隐式链接到表示一个动作。

总和超过a是状态中所有可能动作的总和s, 与选择的动作无关a.

所以两者aa代表动作。a是当前动作,在方程的 LHS 上提供。a表示对所有动作求和的迭代器[aA(s)], 仅用于 RHS 的计算。有时你会看到一个完全不同的字母被选择,或者一些下标或其他方式来显示这些代表不同的动作。

也很常见a代表当前动作,以及a代表下一个动作(在状态时采取s)。但这不是这里发生的事情。