假设有一系列对观察和相应的标签。我们还假设被认为是自变量并且被认为是依赖于的变量. 因此,在监督学习中,人们想要学习函数.
强化学习可以用来学习吗(可能,甚至学习符号形式)?
只是一些草图如何完成:可以认为是环境和每个定义了一些可能的“动作”——可能的符号形式或参数的可能数值(如果符号形式是固定的)。以及具体选定的动作/功能形式(一组参数)可以从损失函数中分配奖励:观察的接近程度是可以从中推断出的值.
沿着我在上一段中提供的框架是否有 RL 的想法或工作?
假设有一系列对观察和相应的标签。我们还假设被认为是自变量并且被认为是依赖于的变量. 因此,在监督学习中,人们想要学习函数.
强化学习可以用来学习吗(可能,甚至学习符号形式)?
只是一些草图如何完成:可以认为是环境和每个定义了一些可能的“动作”——可能的符号形式或参数的可能数值(如果符号形式是固定的)。以及具体选定的动作/功能形式(一组参数)可以从损失函数中分配奖励:观察的接近程度是可以从中推断出的值.
沿着我在上一段中提供的框架是否有 RL 的想法或工作?
任何监督学习 (SL) 问题都可以转换为等效的强化学习 (RL) 问题。
假设您有训练数据集, 在哪里是一个观察和对应的标签。然后让成为一个状态,让, 在哪里是您的(当前)模型,请采取行动。所以,观察的预测标签对应于状态中采取的动作. 采取行动后获得的奖励处于状态然后可以定义为损失(或任何其他适当的损失)。
这种损失的最小化就等于(预期的)奖励的最大化。因此,理论上,您可以使用以下形式的轨迹
但是,请注意,学习到的策略可能无法推广到训练数据集中不存在的观察结果。此外,尽管可以将 SL 问题作为 RL 问题来解决,但在实践中,这可能不是最合适的方法(即它可能效率低下)。
有关更多详细信息,请阅读 Barto 和 Dietterich 的论文Reinforcement Learning and its Relationship to Supervised Learning (2004),他们很好地概述了监督学习和强化学习及其关系。Richard Sutton的《Learning to predict by the methods of temporal Differences》(1988 年)一文也应该从监督学习的角度概述强化学习。但是,请注意,这并不意味着强化学习问题可以被视为等效的监督学习问题。有关详细信息,请参阅上述论文Reinforcement Learning 及其与监督学习的关系的第1.3.3 节将强化学习转换为监督学习。
因此,强化学习可用于分类和回归任务。例如,参见Mathe 等人的Reinforcement Learning for Visual Object Detection (2016)。