我正在研究一个关于 RL 领域中使用的不同奖励函数的研究项目。我已经阅读了逆强化学习(IRL)和奖励塑造(RS)。我想澄清我对这两个概念的一些疑问。
在 IRL 的情况下,目标是根据专家采取的策略找到奖励函数。我读过恢复专家试图优化的奖励函数,然后从这些专家演示中找到最优策略有可能产生更好的策略(例如学徒学习)。为什么它会导致更好的政策?
我正在研究一个关于 RL 领域中使用的不同奖励函数的研究项目。我已经阅读了逆强化学习(IRL)和奖励塑造(RS)。我想澄清我对这两个概念的一些疑问。
在 IRL 的情况下,目标是根据专家采取的策略找到奖励函数。我读过恢复专家试图优化的奖励函数,然后从这些专家演示中找到最优策略有可能产生更好的策略(例如学徒学习)。为什么它会导致更好的政策?
逆强化学习 (IRL) 是一种尝试恢复专家基于专家演示隐式最大化的奖励函数的技术。在解决强化学习问题时,代理会最大化设计者指定的奖励函数,并在奖励最大化的过程中,完成一些它打算做的任务。然而,某些任务的奖励函数有时很难手动指定。例如,驾驶任务会考虑许多不同的因素,例如前方汽车的距离、道路状况以及该人是否需要快速到达目的地。可以根据这些特征手动指定奖励函数。然而,当这些不同的特性之间存在权衡时,
与其手动指定权衡,不如使用 IRL 从专家演示中恢复奖励函数会更容易。只要驾驶的特征不改变,这样的奖励函数就可以更好地泛化到看不见的状态。
在奖励塑造无法学习任务(例如驾驶)的情况下,最好让某人演示一项任务并从这些演示中学习奖励函数。因此,用学习到的奖励函数解决 MDP 将产生一个应该类似于所展示的行为的策略。学习到的奖励函数也应该推广到看不见的状态,并且在看不见的状态下行动的代理应该能够执行专家在相同条件下会采取的行动,假设看不见的状态来自与训练相同的分布状态。
虽然奖励塑造也可能能够执行相同的任务,但 IRL 可能能够做得更好,这取决于一些因问题而异的性能指标。