人工智能 - DDPG 算法如何知道我的动作映射函数？ - 吾爱随笔录

我正在使用 DDPG 来解决 RL 问题。动作空间由笛卡尔积给出 $[0,20]^4\times[0,6]^4$ . 被actor实现为一个输出维度等于的深度神经网络 $8$ 与tanh激活。

因此，给定一个状态s，一个动作由a = actor(s)wherea包含实数给出[-1,1]。接下来，我将此动作映射为属于动作空间a的有效动作valid_a $[0,20]^4\times[0,6]^4$ . 比，我valid_a用来计算奖励。

我的问题是：DDPG 算法如何知道我正在做的这个映射？我应该在 DDPG 算法的哪个部分指定这个映射？我是否应该提供一个双射映射来保证 DDPG 算法从好的操作中学习坏的？