用波动改进 DQN
人工智能
神经网络
强化学习
dqn
2021-11-10 19:13:13
1个回答
您的问题不清楚,您如何使用重播缓冲区。基本上,您必须存储所有状态/奖励元组并在整个缓冲区上训练您的代理。
此外,您应该给代理时间来探索世界的(所有)状态。但是如果想加快训练速度,可以尝试实现重要性采样
其它你可能感兴趣的问题