“对于 135,000 个验证帧,每 250,000 个训练帧对每个代理进行评估”这句话代表什么?在 DQN 自然论文中?

数据挖掘 深度学习 表现 激活函数 dqn
2022-03-07 00:57:53

在 DeepMind 的 DQN 的自然论文中,DQN 被比作线性函数,但他们没有说这个线性函数是什么?他们与一些线性函数进行比较?

0- DQN自然论文中“每个代理每250,000个训练帧评估135,000个验证帧”这句话是什么意思?

2- 这句话的含义是什么:“请注意,这些评估情节在 5 分钟时没有被截断,导致 Enduro 得分更高”

1-这是否正确:我们只是放置一个带有输入和输出的网络?我不明白为什么它的表现非常如何?

在此处输入图像描述DQN 代理的性能在 5 个验证游戏上与线性函数逼近器的性能进行了比较(即,使用单个线性层而不是卷积网络,结合重放和单独的目标网络)。使用标准超参数和三种不同的学习率对代理进行了 1000 万帧的训练。每个代理每 250,000 个训练帧评估 135,000 个验证帧,并报告最高的平均情节得分。请注意,这些评估事件在 5 分钟时没有被截断,导致 Enduro 的分数高于扩展数据表 2 中报告的分数。请注意,与扩展数据表 2 中显示的主要结果(5000 万帧)相比,训练帧的数量(1000 万帧)更短。

1个回答

0:在训练循环中执行 250,000 步后,他们启动验证环境以检查当前性能,而不拟合当前神经网络的权重。

2:验证集的一集最多只占用 135,00 帧(步),并且没有被时间截断。

1:有些游戏比其他游戏更难学习,DQN 方法更适合某些游戏而不是其他游戏。