监督学习可以改写为强化学习问题吗?

人工智能 强化学习 比较 监督学习 函数逼近 回归
2021-10-19 05:03:31

假设有一系列对(xi,yi),(xi+1,yi+1),观察和相应的标签。我们还假设x被认为是自变量并且y被认为是依赖于的变量x. 因此,在监督学习中,人们想要学习函数y=f(x).

强化学习可以用来学习吗f(可能,甚至学习符号形式f(x))?

只是一些草图如何完成:xi可以认为是环境和每个xi定义了一些可能的“动作”——可能的符号形式f(x)或参数的可能数值f(x)(如果符号形式是固定的)。以及具体选定的动作/功能形式f(x,a)(一组参数)可以从损失函数中分配奖励:观察的接近程度(xi,yi)是可以从中推断出的值f(x).

沿着我在上一段中提供的框架是否有 RL 的想法或工作?

1个回答

任何监督学习 (SL) 问题都可以转换为等效的强化学习 (RL) 问题。

假设您有训练数据集D={(xi,yi}i=1N, 在哪里xi是一个观察和yi对应的标签。然后让xi成为一个状态,让f(xi)=y^i, 在哪里f是您的(当前)模型,请采取行动。所以,观察的预测标签xi对应于状态中采取的动作xi. 采取行动后获得的奖励f(xi)处于状态xi然后可以定义为损失|f(xi)yi|(或任何其他适当的损失)。

这种损失的最小化就等于(预期的)奖励的最大化。因此,理论上,您可以使用以下形式的轨迹

T={(x1,f(x1),|f(x1)y1|),,(xN,f(xN),|f(xN)yN|)}
学习价值函数q(例如,使用 Q-learning)或策略π,然后,给定一个新的状态xnew(观察)产生动作f(xnew)(预测的标签)。

但是,请注意,学习到的策略可能无法推广到训练数据集中不存在的观察结果。此外,尽管可以将 SL 问题作为 RL 问题来解决,但在实践中,这可能不是最合适的方法(即它可能效率低下)。

有关更多详细信息,请阅读 Barto 和 Dietterich 的论文Reinforcement Learning and its Relationship to Supervised Learning (2004),他们很好地概述了监督学习和强化学习及其关系。Richard Sutton的《Learning to predict by the methods of temporal Differences》(1988 年)一文也应该从监督学习的角度概述强化学习。但是,请注意,这并不意味着强化学习问题可以被视为等效的监督学习问题。有关详细信息,请参阅上述论文Reinforcement Learning 及其与监督学习的关系的第1.3.3 节将强化学习转换为监督学习。

因此,强化学习可用于分类和回归任务。例如,参见Mathe 等人的Reinforcement Learning for Visual Object Detection (2016)。