我将 PPO 与 LSTM 代理一起使用。我的代理每集执行 10 个动作,一个动作对应一个 LSTM 时间步长,动作空间是离散的。我每集只有一个奖励,我可以在这一集的最后一个动作之后计算。
对于每个时间步(~动作),我的代理有 20 个选择。下图显示了奖励(y 轴)与当前情节(x 轴)的关系。该图显示奖励减少,因为我想最小化这个奖励,所以我使用:减去真正的奖励。
在过程开始时,代理似乎学得很好,奖励在减少,但随后收敛到一个不是最好的值。当我查看我的实验结果时,似乎所有动作的索引都是相同的(例如,代理总是选择我的离散动作空间的第二个值)。
有谁知道这里发生了什么?