是否可以指导强化学习算法?

人工智能 强化学习 深度学习 监督学习 效率 主动学习
2021-11-17 05:52:28

我刚刚开始研究强化学习,据我所知,现有算法会寻找最佳解决方案/策略,但不允许程序员提出找到解决方案的方法(以指导他们的学习过程) . 这将有利于更快地找到最佳解决方案。

是否可以在(深度)强化学习中指导学习过程?

2个回答

程序员已经通过指定奖励函数来指导 RL 算法(或代理)。但是,正如您正确注意到的那样,仅凭奖励功能可能不足以有效和快速地学习。

为了尝试解决这个效率低下的问题,一种解决方案是将强化学习与监督学习相结合。例如,Todd Hester 等人的论文Deep Q-learning from Demonstrations (2017)。描述了实现这一目标的方法。

Arkady Epshteyn 等人的论文Active Reinforcement Learning (2008)。还试图通过结合 MDP 的近似值(由领域专家给出)来解决这个问题。

可能还有许多其他可能的解决方案。事实上,所有基于模型的 RL 算法都可能属于这类算法,它们估计或结合环境的动态以更有效地找到策略。

这是两篇非常相关的有趣论文:

  1. 从人类偏好中学习
  2. 通过人工输入改进强化学习