A3C 奖励下降的原因可能是什么?
人工智能
强化学习
深度学习
政策梯度
奖励
演员批评方法
2021-10-29 14:48:12
1个回答
到目前为止,我将分享我的理解。当使用具有稀疏最终奖励的 on-policy 算法时,这种行为实际上是正常的。问题源于这样一个事实,即一旦您陷入不做任何事情的行为策略(例如,使用“什么都不做”动作,直到超时),就很难摆脱它,因为您会不断获得可以教给您的经验什么都没有(根本没有奖励信号)并使您保持相同的政策。可能的缓解措施:
- 鼓励更多探索(在 A3C 中,使熵损失系数更大),以便更快地从这种类型的静止行为中恢复。
- 使用具有足够大重放缓冲区的离策略算法,这样即使您开始以这种方式行事,您仍然可以使用“健康”旧策略的经验。
如果您坚持使用完全符合策略的算法,则使 batch_size 更大可能会有所帮助。