人工智能 - 关于连续动作空间问题的输出层激活函数 - 吾爱随笔录

人工智能神经网络强化学习深度学习激活函数

2021-11-13 12:28:11

我有兴趣构建一个（深度）RL 代理来解决一个连续的问题（它将某些东西分成几部分）。

在我到目前为止看到的所有例子中，例如，解决连续月球着陆器，总是 $\tanh$ 使用了输出层激活，它产生的值介于 $-1$ 和 $+1$ .

这仅仅是因为它适合用例还是这是具有连续动作空间的 RL 代理的一般规则？

如果我只想要之间的值怎么办 $0$ 和 $1$ ? 我可以简单地使用一个 $\operatorname{softmax}$ 激活我的输出层？

1个回答

使用 Tanh 纯粹是因为它适合所描述的问题（特别是对于最小-最大归一化的值）。我从事过几个专业的强化学习项目（特别是在连续空间中的动作），我根本没有使用过 tanh。希望有帮助:)

其它你可能感兴趣的问题