我正在使用 DDPG 来解决 RL 问题。动作空间由笛卡尔积给出. 被actor实现为一个输出维度等于的深度神经网络与tanh激活。
因此,给定一个状态s,一个动作由a = actor(s)wherea包含实数给出[-1,1]。接下来,我将此动作映射为属于动作空间a的有效动作valid_a. 比,我valid_a用来计算奖励。
我的问题是:DDPG 算法如何知道我正在做的这个映射?我应该在 DDPG 算法的哪个部分指定这个映射?我是否应该提供一个双射映射来保证 DDPG 算法从好的操作中学习坏的?