强化学习中的预测(值估计)和控制问题有什么区别?
RL 中是否存在无法将问题明确分类为上述问题并且是这些问题的混合的场景?
问题不能轻易归类为上述问题之一的例子会很好。
强化学习中的预测(值估计)和控制问题有什么区别?
RL 中是否存在无法将问题明确分类为上述问题并且是这些问题的混合的场景?
问题不能轻易归类为上述问题之一的例子会很好。
预测是预测环境的任何特征的问题。在强化学习中,典型的特征是奖励或回报,但不一定总是如此。请参阅Joseph Modayil 等人的强化学习机器人中的 Multi-timescale nexting (2011)。
控制是估计策略的问题。显然,控制一词与控制理论有关。事实上,控制这个词经常被用作动作的同义词。请参阅强化学习中的控制和动作之间有什么区别吗?. 同样,术语控制器也用作代理的同义词。例如,在Jessica B. Hamrick 等人的论文Metacontrol for Adaptive Imagination-Based Optimization (2017) 中。术语元控制器用于指代代理。受控系统也可以指环境。
《强化学习:介绍》(第 2 版)一书的第 14.1 节提供了有关预测和控制之间的区别以及这种区别如何与心理概念相关的更多细节。
Nbro 的回答已经解决了基本定义,所以我不会重复。相反,我将尝试详细说明问题的其他部分。
RL 中是否存在无法将问题明确分类为上述问题并且是这些问题的混合的场景?
我不确定“问题”不能明确分类的情况......但通常,当我们真正对控制作为一个问题感兴趣时,我们实际上仍然将预测问题作为我们的一部分来处理训练算法。考虑到-learning、Sarsa,以及与“广义策略迭代”思想相关的各种其他算法。他们中的许多人(大致)像这样工作:
您可以以这种方式看待这些技术,同时处理这两个问题,但对于它们实际上主要只是解决预测问题的论点也有一些话要说。这就是所有“有趣”学习发生的地方。控制问题的解决方案直接从预测问题的解决方案中推导出来。有不同的算法,例如策略梯度方法,直接旨在解决控制问题。
一个有趣的(在我看来:))切线是,在某些问题中,其中一个问题可能比另一个容易得多,这对于您选择算法很重要。例如,假设您有一条很长的“路”,您只能向左或向右移动,您从左侧开始,目标是一直向右。在这个问题中,控制问题的解决方案很容易表达;总是正确的。对于预测问题,您需要更强大的东西来表达所有可能状态下的值的所有预测。
在其他问题中,快速获得该值的估计可能要容易得多,但实际表达如何获得该值则要复杂得多。例如,在《星际争霸》中,如果你有一支规模更大的军队,很容易预测你会获胜。但是您仍然需要执行一些非常具体的、长序列的操作来实现该目标。