我刚刚开始研究强化学习,据我所知,现有算法会寻找最佳解决方案/策略,但不允许程序员提出找到解决方案的方法(以指导他们的学习过程) . 这将有利于更快地找到最佳解决方案。
是否可以在(深度)强化学习中指导学习过程?
我刚刚开始研究强化学习,据我所知,现有算法会寻找最佳解决方案/策略,但不允许程序员提出找到解决方案的方法(以指导他们的学习过程) . 这将有利于更快地找到最佳解决方案。
是否可以在(深度)强化学习中指导学习过程?
程序员已经通过指定奖励函数来指导 RL 算法(或代理)。但是,正如您正确注意到的那样,仅凭奖励功能可能不足以有效和快速地学习。
为了尝试解决这个效率低下的问题,一种解决方案是将强化学习与监督学习相结合。例如,Todd Hester 等人的论文Deep Q-learning from Demonstrations (2017)。描述了实现这一目标的方法。
Arkady Epshteyn 等人的论文Active Reinforcement Learning (2008)。还试图通过结合 MDP 的近似值(由领域专家给出)来解决这个问题。
可能还有许多其他可能的解决方案。事实上,所有基于模型的 RL 算法都可能属于这类算法,它们估计或结合环境的动态以更有效地找到策略。
这是两篇非常相关的有趣论文: