“逆强化学习”和监督学习有什么区别?

机器算法验证 机器学习 深度学习 术语 监督学习 强化学习
2022-03-30 23:49:17

如果您也提供一个示例,那就太好了。

2个回答

逆强化学习(IRL)可以看作是监督学习的一个例子。数据是演示,目标是奖励函数。因此,“学习”任务只是在 MDP 规范的约束下寻找从演示空间到奖励函数的映射。

具体示例:让我们使用贝叶斯 IRL 来说明。给定一些没有奖励函数的 MDP和一组演示其中每个演示轨迹是一组状态-动作对。BIRL 的任务是找到 ,它很容易通过贝叶斯规则 扩展为“数据”()也经常被认为是独立同分布的。从这个公式可以看出,这是一个有监督的学习问题。魔鬼只在计算可能性的细节。(S,A,T,γ)Ξ=(ξ1,,ξM)ξi=((s1i,a1i),,(sHi,aHi))

Pr(RΞ)
Pr(RΞ)Pr(ΞR)Pr(R)Ξ

重要提示:IRL 寻求“解释”演示的奖励函数。不要将此与学徒制学习 (AL) 混淆,后者的主要兴趣是可以生成可见演示的策略(尽管这通常但不一定通过奖励获得)。

此外,还有与之密切相关的行为克隆。给定一些行为示例,行为克隆简单地尝试复制它。这可能意味着生成与观察到的行为的统计信息“匹配”的行为。很明显,这是有监督的学习。例如,给定一些演示,训练一个神经网络在“相似”情况下生成“相似”行为。

PS 用词汇表原谅我手摇的本性。

免责声明:我是控制理论的硕士生(具有工程背景),正在开始他的强化学习论文。我才刚刚开始对这个领域有所了解。有点像我第一次在机器学习湖中散步。所以我的信息可能不准确。我之所以回答是因为我觉得我理解细微的差别。我还从您对示例的要求中感觉到您想要一个面向应用程序的示例,而不是它的数学抽象。

差异 - IRL 将其问题描述为 MDP,并使用“代理”的概念来选择最大化净奖励的“行动”。关键区别在于,在 IRL 中,监督学习技术(即数据拟合)用于获得奖励函数。监督学习使用标记数据来近似映射。

从图像中学习地面距离的示例
监督学习:使用具有标记地面距离的图像中的特征来训练神经网络权重以在一般情况下找到地面距离。
IRL:使用标记数据推导出奖励函数,这将是从特征到奖励的映射。让代理探索特征空间并提出选择最佳动作的策略,在这种情况下,这将是对地面距离的估计。

对于我描述的这个特定任务,这似乎是微不足道的,因为当更简单的监督学习就足够了时,使用 RL 对图像距离进行分类是多余的。然而,在奖励函数的定义很困难但使用 RL 可能是有利的 RL 情况下,IRL 可以证明是非常有用的。
例如,如果想象使用 RL 来教授直升机的杂技动作(Abbeel 等人的论文),使用 IRL 获得奖励函数可能非常有用。一旦获得了机动的奖励函数,这可以用来向其他直升机(具有不同的空气动力学模型但类似的控制)教授这些机动如何执行这些机动。使用监督学习来提出状态到控制的映射是行不通的,因为不同的飞机会有不同的空气动力学模型。

参考:
* Ng, AY 和 Russell, SJ(2000 年 6 月)。逆强化学习算法。在 Icml(第 663-670 页)中。
* Abbeel, P.、Coates, A. 和 Ng, AY (2010)。通过学徒学习自主直升机特技飞行。国际机器人研究杂志。