在我看到的大多数 RL 算法中,有一个系数会随着时间的推移减少动作探索,以帮助收敛。
但是在连续动作空间中使用的 Actor-Critic 或其他算法(A3C、DDPG、...)中,我看到的不同实现(主要使用 Ornstein Uhlenbeck 过程)是随时间相关的,但不会减少。
动作噪声被限制在 [-1, 1] 的范围内,并被添加到 [-1, 1] 之间的策略中。所以,我不明白它如何在难以获得奖励的环境中工作。
有没有想过这个?
在我看到的大多数 RL 算法中,有一个系数会随着时间的推移减少动作探索,以帮助收敛。
但是在连续动作空间中使用的 Actor-Critic 或其他算法(A3C、DDPG、...)中,我看到的不同实现(主要使用 Ornstein Uhlenbeck 过程)是随时间相关的,但不会减少。
动作噪声被限制在 [-1, 1] 的范围内,并被添加到 [-1, 1] 之间的策略中。所以,我不明白它如何在难以获得奖励的环境中工作。
有没有想过这个?