对于 Dueling DQN (第 5 页),为什么作者对 Advantage 流使用平均值,而不是简单地“激活”Advantage 流(使用例如)?
“激活”在理论上会起作用吗?这是否与作者打算实现的想法相似,还是我错过了重点?
提醒一下,这是等式,它为所采取的行动产生一个 Q 值通过将价值流与优势流相结合:
在哪里
- 是我们当前的状态
- 是我们决定采取的行动
- 是我们可以采取的任何行动之一(包括我们已经采取的行动)
- 是在“分裂”成两个单独的流之前网络的参数(权重)
- 是优势流的参数
- 是价值流的参数
对于 Dueling DQN (第 5 页),为什么作者对 Advantage 流使用平均值,而不是简单地“激活”Advantage 流(使用例如)?
“激活”在理论上会起作用吗?这是否与作者打算实现的想法相似,还是我错过了重点?
提醒一下,这是等式,它为所采取的行动产生一个 Q 值通过将价值流与优势流相结合:
在哪里
这些模型的目标是估计每个行动选择的价值。他们选择使用平均函数来估计更新值,因为平均函数会产生一个受每个值影响的单个标量。
Tanh 函数不是合适的非线性激活函数。tanh 函数仅将标量作为输入,因此不会对每个值进行加权。
作者为许多值尝试了适当的非线性激活函数 - softmax:
我们还尝试了等式 (8) 的 softmax 版本,但发现它与等式 (9) 的更简单模块提供了相似的结果。