人工智能 - 演员/评论家算法中的噪音（例如OU）是否应该随着时间的推移而减少？ - 吾爱随笔录

在我看到的大多数 RL 算法中，有一个系数会随着时间的推移减少动作探索，以帮助收敛。

但是在连续动作空间中使用的 Actor-Critic 或其他算法（A3C、DDPG、...）中，我看到的不同实现（主要使用 Ornstein Uhlenbeck 过程）是随时间相关的，但不会减少。

动作噪声被限制在 [-1, 1] 的范围内，并被添加到 [-1, 1] 之间的策略中。所以，我不明白它如何在难以获得奖励的环境中工作。

有没有想过这个？