我试图理解著名的论文“Playing Atari with Deep Reinforcement Learning”(pdf)。我不清楚epoch和episode之间的区别。在算法中,外循环结束了剧集,而在图中x 轴标记为epoch。在强化学习的背景下,我不清楚时代意味着什么。一个时代是围绕情节循环的外循环吗?
深度Q学习中的epoch和epoch有什么区别?
机器算法验证
神经网络
术语
强化学习
q学习
2022-01-31 03:16:58
其它你可能感兴趣的问题