数据挖掘 - Dueling DQN - Advantage Stream，为什么使用平均值而不是 tanh？ - 吾爱随笔录 - 问答

Dueling DQN - Advantage Stream，为什么使用平均值而不是 tanh？

数据挖掘强化学习

2022-02-25 06:40:03

对于 Dueling DQN （第 5 页），为什么作者对 Advantage 流使用平均值，而不是简单地“激活”Advantage 流（使用 $tanh$ 例如）？

“激活”在理论上会起作用吗？这是否与作者打算实现的想法相似，还是我错过了重点？

提醒一下，这是等式，它为所采取的行动产生一个 Q 值 $a$ 通过将价值流与优势流相结合：

Q (s, a; θ, α, β) = V (s; θ, β) + (A (s, a; θ, α) - \frac{1}{N} \sum_{a^{'}}^{N} A (s, a^{'}; θ, α))

$Q(s,a; \theta, \alpha, \beta) = V(s; \theta, \beta) + \biggl( A(s, a; \theta, \alpha) - \frac{1}{N}\sum_{a'}^{N}A(s, a'; \theta, \alpha) \biggr)$

在哪里

$s$ 是我们当前的状态
$a$ 是我们决定采取的行动
$a'$ 是我们可以采取的任何行动之一（包括我们已经采取的行动）
$\theta$ 是在“分裂”成两个单独的流之前网络的参数（权重）
$\alpha$ 是优势流的参数
$\beta$ 是价值流的参数

1个回答

这些模型的目标是估计每个行动选择的价值。他们选择使用平均函数来估计更新值，因为平均函数会产生一个受每个值影响的单个标量。

Tanh 函数不是合适的非线性激活函数。tanh 函数仅将标量作为输入，因此不会对每个值进行加权。

作者为许多值尝试了适当的非线性激活函数 - softmax：

我们还尝试了等式 (8) 的 softmax 版本，但发现它与等式 (9) 的更简单模块提供了相似的结果。

其它你可能感兴趣的问题

上一篇使用多类而不是多标签分类是不好的做法吗？下一篇我应该如何格式化输入和输出以使用 LSTM 生成文本