我已经阅读了 Sutton 和 Barto 关于强化学习的大部分介绍性文本。我想我会尝试将书中的一些 RL 算法应用到我之前在推箱子上完成的任务中,在这个任务中,你处于一个类似迷宫的网格环境中,试图将三个雪球堆叠成一个雪人,位于网格。
基本算法(MC 控制、Q-learning 或 Dyna-Q)似乎都基于解决代理所训练的任何特定迷宫。例如,从坐标 (1,2) 到 (1,3) 的转移概率对于不同的迷宫是不同的(因为在一个迷宫中,我们可能在 (1,3) 处有障碍物)。使用这些算法基于一个迷宫计算其奖励的代理似乎不知道在完全不同的迷宫中该做什么。它必须重新训练:1)要么采取现实生活中的行动,从头开始重新学习如何在迷宫中导航,要么 2)给出迷宫的模型,无论是精确的还是近似的(这在现实生活中似乎是不可行的),这样计划而不采取行动是可能的。
当我开始学习 RL 时,我认为它会更通用。这引出了一个问题:多任务强化学习是否涵盖了这个问题?你会如何根据它要解决的一般问题对 RL 的各个领域进行分类?