深度Q学习中的epoch和epoch有什么区别?

机器算法验证 神经网络 术语 强化学习 q学习
2022-01-31 03:16:58

我试图理解著名的论文“Playing Atari with Deep Reinforcement Learning”(pdf)。我不清楚epochepisode之间的区别。在算法中1,外循环结束了剧集,而在图中2x 轴标记为epoch在强化学习的背景下,我不清楚时代意味着什么。一个时代是围绕情节循环的外循环吗?

在此处输入图像描述

在此处输入图像描述

1个回答
  • 一个情节= 一个状态、动作和奖励的序列,以最终状态结束。例如,玩一整场游戏可以被视为一个情节,当一名玩家输/赢/平时达到最终状态。有时,人们可能更愿意将一集定义为几场比赛(例如:“每一集是几十场比赛,因为每个玩家的比赛得分都达到 21”)。
  • 在神经网络术语中,一个epoch =所有训练示例的一次前向传递和一次反向传递。

在您提到的论文中,他们似乎对时代的含义更加灵活,因为他们只是将一个时代定义为一定数量的权重更新。因此,正如您在问题中提到的那样,您可以将一个时期视为围绕情节循环的外部循环。