我有兴趣构建一个(深度)RL 代理来解决一个连续的问题(它将某些东西分成几部分)。
在我到目前为止看到的所有例子中,例如,解决连续月球着陆器,总是使用了输出层激活,它产生的值介于和.
这仅仅是因为它适合用例还是这是具有连续动作空间的 RL 代理的一般规则?
如果我只想要之间的值怎么办和? 我可以简单地使用一个激活我的输出层?
我有兴趣构建一个(深度)RL 代理来解决一个连续的问题(它将某些东西分成几部分)。
在我到目前为止看到的所有例子中,例如,解决连续月球着陆器,总是使用了输出层激活,它产生的值介于和.
这仅仅是因为它适合用例还是这是具有连续动作空间的 RL 代理的一般规则?
如果我只想要之间的值怎么办和? 我可以简单地使用一个激活我的输出层?
使用 Tanh 纯粹是因为它适合所描述的问题(特别是对于最小-最大归一化的值)。我从事过几个专业的强化学习项目(特别是在连续空间中的动作),我根本没有使用过 tanh。希望有帮助:)