在论文Deep Recurrent Q-Learning for Partially Observable MDPs中,DRQN 被描述为 DQN,其中第一个卷积后全连接层被循环 LSTM 取代。
我有只有两个密集层的 DQN 实现。我想将其更改为 DRQN,第一层为 LSTM,第二层密集层保持不变。如果我理解正确,我还需要适当地更改输入数据。
为了使 DRQN 工作,是否还有其他需要修改的东西?
在论文Deep Recurrent Q-Learning for Partially Observable MDPs中,DRQN 被描述为 DQN,其中第一个卷积后全连接层被循环 LSTM 取代。
我有只有两个密集层的 DQN 实现。我想将其更改为 DRQN,第一层为 LSTM,第二层密集层保持不变。如果我理解正确,我还需要适当地更改输入数据。
为了使 DRQN 工作,是否还有其他需要修改的东西?