我正在使用 DDPG 来解决 RL 问题。动作空间由笛卡尔积给出. 被actor
实现为一个输出维度等于的深度神经网络与tanh
激活。
因此,给定一个状态s
,一个动作由a = actor(s)
wherea
包含实数给出[-1,1]
。接下来,我将此动作映射为属于动作空间a
的有效动作valid_a
. 比,我valid_a
用来计算奖励。
我的问题是:DDPG 算法如何知道我正在做的这个映射?我应该在 DDPG 算法的哪个部分指定这个映射?我是否应该提供一个双射映射来保证 DDPG 算法从好的操作中学习坏的?