做什么在 Dueling DQN 中的“组合”方程中是什么意思?(第 5 页顶部)
哪里有可供选择的动作;
- 是传入状态(输入向量)
- 是否采取了行动?(选择的动作)
- 我不知道它在这种情况下代表什么
- 表示卷积层的权重
- 是输出向量的“优势流”的权重
- 是价值流的权重(输出一个标量)
为什么不简单地使用到处都是,为什么平均使用?
做什么在 Dueling DQN 中的“组合”方程中是什么意思?(第 5 页顶部)
哪里有可供选择的动作;
为什么不简单地使用到处都是,为什么平均使用?
它只是一种命名空间,因为已分配所选操作。等式中考虑了两个动作上下文,因此每个上下文都需要一个符号。使用是一个明显的选择作为字母已经隐式链接到表示一个动作。
总和超过是状态中所有可能动作的总和, 与选择的动作无关.
所以两者和代表动作。是当前动作,在方程的 LHS 上提供。表示对所有动作求和的迭代器, 仅用于 RHS 的计算。有时你会看到一个完全不同的字母被选择,或者一些下标或其他方式来显示这些代表不同的动作。
也很常见代表当前动作,以及代表下一个动作(在状态时采取)。但这不是这里发生的事情。