如何区分偶发任务和连续任务?

机器算法验证 机器学习 术语 强化学习
2022-03-26 10:28:50

我正在阅读 Sutton 的书Reinforcement Learning: An Introduction的第 3 章,我对偶发任务连续任务感到困惑

在强化学习中,如何区分情节任务和连续任务?

2个回答

连续的任务永远不会结束。这意味着您在结束时没有得到奖励,因为没有结束,但在任务期间每隔一段时间。

例如,阅读互联网学习数学可以被认为是一项持续的任务。

一个情节任务持续有限的时间。例如,玩单局围棋是一个情节任务,你赢或输。在一个情节任务中,在任务结束时可能只有一个奖励,一种选择是将奖励平均分配给该情节中采取的所有行动。

在一项连续的任务中,奖励可能会被分配折扣,因此最近的反应会获得更大的奖励,而过去很长时间的行动会获得微乎其微的奖励。例如,奖励可能与过去的距离呈几何关系,并带有折扣因子λ[0,1].

一个连续的任务可以永远持续下去,一个偶发的任务至少有一个有限状态(即游戏结束)。从数学上讲,情节任务的状态转移概率为 1 到其自身,而在其他任何地方为 0。

这是高度可解释的,正如本书的问题 3.7 所阐明的那样:迷宫(逃脱奖励 1,否则奖励 0)是偶发的吗?从技术上讲是的,有一个最终状态,但理论上它仍然可以永远持续下去(循环运行)。将此视为训练代理的间歇性将导致他在每场比赛的固定轮数和固定数量的比赛中永远不会到达终点,因此根本不训练。