最先进的元强化学习方法有哪些?

人工智能 强化学习 元学习
2021-10-28 03:44:38

这个问题似乎有点过于宽泛,但我想知道目前关于元强化学习的最先进的作品是什么。您能否向我提供该领域当前的最新技术?

2个回答

meta-RL 的最新论文之一是meta-Q-learning本文介绍了 Meta-Q-Learning (MQL),一种用于元强化学习 (meta-RL) 的新离策略算法。MQL 建立在三个简单的想法之上。

  • 如果可以访问表示过去轨迹的上下文变量,Q-learning 就可以与最先进的元强化学习算法竞争。

  • 使用多任务目标来最大化训练任务的平均奖励是元训练 RL 策略的有效方法。

  • 可以回收来自元训练重放缓冲区的过去数据,以使用非策略更新使策略适应新任务

标准连续控制基准的实验表明,MQL 与最先进的元强化学习算法相比具有优势。

我认为 MQL 论文的实验部分中存在对元强化学习其他工作的其他参考。

元强化学习可以参考广泛的想法。此外,不同的算法在不同的评估指标(样本效率、代理性能、新任务的适应速度等)下是 SOTA

假设您指的是通过在相关任务的分布上训练代理来快速学习/适应新任务的问题,以下是一些流行的算法

  • 珍珠 [Rakelly 等人,2019]
  • VariBAD [Zintgraf 等人,2020 年]
  • Meta-Q-Learning [Fakoor et al., 2020]

参考:

  1. K Rakelly、A Xhou、D Quillen、C Finn、S Levine -通过概率上下文变量进行有效的离策略元强化学习,ICML 2019。
  2. L Zintgraf 等人,-VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning,ICLR 2020。
  3. R Fakoor、P Chaudhari、S Soatto、AJ Smola - Meta-Q-Learning,ICLR 2020。