演员/评论家算法中的噪音(例如OU)是否应该随着时间的推移而减少?

人工智能 深度学习 强化学习 演员批评方法 ddpg
2021-11-05 01:34:36

在我看到的大多数 RL 算法中,有一个系数会随着时间的推移减少动作探索,以帮助收敛。

但是在连续动作空间中使用的 Actor-Critic 或其他算法(A3C、DDPG、...)中,我看到的不同实现(主要使用 Ornstein Uhlenbeck 过程)是随时间相关的,但不会减少。

动作噪声被限制在 [-1, 1] 的范围内,并被添加到 [-1, 1] 之间的策略中。所以,我不明白它如何在难以获得奖励的环境中工作。

有没有想过这个?

0个回答
没有发现任何回复~