A3C 奖励下降的原因可能是什么?

人工智能 强化学习 深度学习 政策梯度 奖励 演员批评方法
2021-10-29 14:48:12

平均情节奖励通常在增加,但它会自发下降,我不确定它们的原因。

在此处输入图像描述

这个问题有一个稀疏的奖励,batch size=2000entropy_coefficient=0.1,其他超参数是相当标准的。

有没有人见过这种行为?这些奖励下降的原因可能是什么(没有足够的探索、太稀疏的奖励、状态不够表达等)?

1个回答

到目前为止,我将分享我的理解。当使用具有稀疏最终奖励的 on-policy 算法时,这种行为实际上是正常的。问题源于这样一个事实,即一旦您陷入不做任何事情的行为策略(例如,使用“什么都不做”动作,直到超时),就很难摆脱它,因为您会不断获得可以教给您的经验什么都没有(根本没有奖励信号)并使您保持相同的政策。可能的缓解措施:

  • 鼓励更多探索(在 A3C 中,使熵损失系数更大),以便更快地从这种类型的静止行为中恢复。
  • 使用具有足够大重放缓冲区的离策略算法,这样即使您开始以这种方式行事,您仍然可以使用“健康”旧策略的经验。

如果您坚持使用完全符合策略的算法,则使 batch_size 更大可能会有所帮助。