监督学习的定义似乎是强化学习的一个子集,具有基于标记数据(与环境中的其他信息相反)的特定类型的奖励函数。这是一个准确的描述吗?
监督学习是强化学习的一个子集吗?
机器算法验证
机器学习
术语
强化学习
监督学习
定义
2022-02-02 20:50:21
1个回答
确实,任何监督学习问题都可以转换为等效的强化学习问题:让状态对应于输入数据。让动作对应于输出的预测。将奖励定义为用于监督学习的损失函数的负值。最大化预期回报。相比之下,强化学习问题通常不能被视为监督学习问题。因此,从这个角度来看,监督学习问题是强化学习问题的一个子集。
但是,尝试使用一般的强化学习算法来解决监督学习问题是毫无意义的。所有这一切都是丢弃本可以使问题更容易解决的结构。强化学习中出现了与监督学习无关的各种问题。而且,监督学习可以从不适用于一般强化学习环境的方法中受益。因此,尽管这些领域之间存在一些共同的基本原则和共享技术,但通常不会将监督学习视为一种强化学习。
参考
巴托和迪特里希 (2004)。强化学习及其与监督学习的关系。