人工智能 - 用波动改进 DQN - 吾爱随笔录

你好 :) 我对这个社区很陌生，所以如果我发布了任何不正确的内容，请告诉我，我会尝试更改它。

我正在从事旨在在 CARLA 中创建自动驾驶代理的项目。我建立了一个神经网络 Xception（衰减 ε-greedy）。其他参数是：

集数：100
GAMMA：0.3
EPSILON_DECAY：0.9
MIN_EPSILON：0.001 BATCH：16

由于计算机资源有限，我选择了 100 或 300 个 epoch 来训练模型，但它会产生很大的波动：

集数：100
GAMMA：0.7 EPSILON_DECAY：0.9
MIN_EPSILON：0.001 BATCH：16

谁能建议我如何改善我的结果？还是只是时代数量少的问题？