Dueling DQN - Advantage Stream,为什么使用平均值而不是 tanh?

数据挖掘 强化学习
2022-02-25 06:40:03

对于 Dueling DQN (第 5 页),为什么作者对 Advantage 流使用平均值,而不是简单地“激活”Advantage 流(使用tanh例如)?

“激活”在理论上会起作用吗?这是否与作者打算实现的想法相似,还是我错过了重点?

提醒一下,这是等式,它为所采取的行动产生一个 Q 值a通过将价值流与优势流相结合:

Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)1NaNA(s,a;θ,α))

在哪里

  • s是我们当前的状态
  • a是我们决定采取的行动
  • a是我们可以采取的任何行动之一(包括我们已经采取的行动)
  • θ是在“分裂”成两个单独的流之前网络的参数(权重)
  • α是优势流的参数
  • β是价值流的参数
1个回答

这些模型的目标是估计每个行动选择的价值。他们选择使用平均函数来估计更新值,因为平均函数会产生一个受每个值影响的单个标量。

Tanh 函数不是合适的非线性激活函数。tanh 函数仅将标量作为输入,因此不会对每个值进行加权。

作者为许多值尝试了适当的非线性激活函数 - softmax

我们还尝试了等式 (8) 的 softmax 版本,但发现它与等式 (9) 的更简单模块提供了相似的结果。