当训练中每集的平均奖励不稳定时会显示什么?
如果每集的平均奖励与测试部分的最终奖励之间存在很大差异,我们能说什么?
比如在Atari by deep mind 的论文中,图2 中它决定了什么。左?图2左右有什么区别?
图 2:左侧的两个图分别显示了训练期间 Breakout 和 Seaquest 的每集平均奖励。统计数据是通过对 10000 步运行 = 0.05 的 -greedy 策略计算的。右边的两个图分别显示了 Breakout 和 Seaquest 上一组状态的平均最大预测动作值。一个 epoch 对应于 50000 个小批量权重更新或大约 30 分钟的训练时间。