用波动改进 DQN

人工智能 神经网络 强化学习 dqn
2021-11-10 19:13:13

你好 :) 我对这个社区很陌生,所以如果我发布了任何不正确的内容,请告诉我,我会尝试更改它。

我正在从事旨在在 CARLA 中创建自动驾驶代理的项目。我建立了一个神经网络 Xception(衰减 ε-greedy)。其他参数是:

集数:100
GAMMA:0.3
EPSILON_DECAY:0.9
MIN_EPSILON:0.001 BATCH:16

由于计算机资源有限,我选择了 100 或 300 个 epoch 来训练模型,但它会产生很大的波动: 在此处输入图像描述 在此处输入图像描述

集数:100
GAMMA:0.7 EPSILON_DECAY:0.9
MIN_EPSILON:0.001 BATCH:16

在此处输入图像描述 谁能建议我如何改善我的结果?还是只是时代数量少的问题?

1个回答

您的问题不清楚,您如何使用重播缓冲区。基本上,您必须存储所有状态/奖励元组并在整个缓冲区上训练您的代理。

此外,您应该给代理时间来探索世界的(所有)状态。但是如果想加快训练速度,可以尝试实现重要性采样