为什么 RL 实现会集中在一个动作上?

人工智能 强化学习 收敛 政策
2021-10-25 19:28:30

我已经看到这种情况发生在最先进的 RL 算法的实现中,其中模型在多次训练迭代后随着时间的推移收敛到单个动作。出现这种行为是否存在一些普遍的漏洞或原因?

1个回答

为什么 RL 实现会集中在一个动作上?

如果最优策略不应该总是在相同的状态下选择相同的动作,即如果最优策略不是确定性的(例如,在石头剪刀布的情况下,最优策略不能是确定性的,因为任何聪明的玩家都会轻松记住您的确定性策略,因此,一段时间后,您总是会再次失去该玩家),那么您可以做一些事情来使您的策略更加随机

  1. 改变奖励功能。如果您的代理最终总是选择相同的动作而您不希望这样做,那可能是因为您没有给它正确的强化信号(假设代理选择的动作显然会给它长期的最高奖励跑)。

  2. 尝试在培训期间进行更多探索。因此,如果您使用的是行为策略,例如ϵ-贪婪,你可能想增加你的ϵ(即选择随机动作的概率)。

  3. 如果您估计状态-动作价值函数(例如使用 Q-learning),也许您通过选择最佳动作从中得出策略,但是,当然,这将使您的策略具有确定性。您可能希望使用例如 softmax 从状态-动作值函数中导出策略(即选择动作的概率与其值成正比),尽管 Q-learning 假设您的目标策略相对于状态是贪婪的——动作价值函数。

如果最优策略应该是确定性的,那么,如果你找到最优策略(可能并非如此),你最终会得到一个总是选择相同动作的代理。在那种情况下,很明显,RL 智能体总是选择相同的最优动作不是问题。