如何解决 DQN(Deep Q-Network)训练中每集平均奖励的不稳定性?

数据挖掘 神经网络 深度学习 训练 成本函数 dqn
2022-03-11 04:07:44

当训练中每集的平均奖励不稳定时会显示什么?

如果每集的平均奖励与测试部分的最终奖励之间存在很大差异,我们能说什么?

比如在Atari by deep mind 的论文中,图2 中它决定了什么。左?图2左右有什么区别?

在此处输入图像描述 图 2:左侧的两个图分别显示了训练期间 Breakout 和 Seaquest 的每集平均奖励。统计数据是通过对 10000 步运行 = 0.05 的 -greedy 策略计算的。右边的两个图分别显示了 Breakout 和 Seaquest 上一组状态的平均最大预测动作值。一个 epoch 对应于 50000 个小批量权重更新或大约 30 分钟的训练时间。

0个回答
没有发现任何回复~