人工智能 - 是否可以指导强化学习算法？ - 吾爱随笔录

人工智能强化学习深度学习监督学习效率主动学习

2021-11-17 05:52:28

我刚刚开始研究强化学习，据我所知，现有算法会寻找最佳解决方案/策略，但不允许程序员提出找到解决方案的方法（以指导他们的学习过程） . 这将有利于更快地找到最佳解决方案。

是否可以在（深度）强化学习中指导学习过程？

2个回答

程序员已经通过指定奖励函数来指导 RL 算法（或代理）。但是，正如您正确注意到的那样，仅凭奖励功能可能不足以有效和快速地学习。

为了尝试解决这个效率低下的问题，一种解决方案是将强化学习与监督学习相结合。例如，Todd Hester 等人的论文Deep Q-learning from Demonstrations (2017)。描述了实现这一目标的方法。

Arkady Epshteyn 等人的论文Active Reinforcement Learning (2008)。还试图通过结合 MDP 的近似值（由领域专家给出）来解决这个问题。

可能还有许多其他可能的解决方案。事实上，所有基于模型的 RL 算法都可能属于这类算法，它们估计或结合环境的动态以更有效地找到策略。

这是两篇非常相关的有趣论文：

其它你可能感兴趣的问题