这个问题似乎有点过于宽泛,但我想知道目前关于元强化学习的最先进的作品是什么。您能否向我提供该领域当前的最新技术?
最先进的元强化学习方法有哪些?
人工智能
强化学习
元学习
2021-10-28 03:44:38
2个回答
meta-RL 的最新论文之一是meta-Q-learning。本文介绍了 Meta-Q-Learning (MQL),一种用于元强化学习 (meta-RL) 的新离策略算法。MQL 建立在三个简单的想法之上。
如果可以访问表示过去轨迹的上下文变量,Q-learning 就可以与最先进的元强化学习算法竞争。
使用多任务目标来最大化训练任务的平均奖励是元训练 RL 策略的有效方法。
可以回收来自元训练重放缓冲区的过去数据,以使用非策略更新使策略适应新任务
标准连续控制基准的实验表明,MQL 与最先进的元强化学习算法相比具有优势。
我认为 MQL 论文的实验部分中存在对元强化学习其他工作的其他参考。
元强化学习可以参考广泛的想法。此外,不同的算法在不同的评估指标(样本效率、代理性能、新任务的适应速度等)下是 SOTA
假设您指的是通过在相关任务的分布上训练代理来快速学习/适应新任务的问题,以下是一些流行的算法
- 珍珠 [Rakelly 等人,2019]
- VariBAD [Zintgraf 等人,2020 年]
- Meta-Q-Learning [Fakoor et al., 2020]
参考:
- K Rakelly、A Xhou、D Quillen、C Finn、S Levine -通过概率上下文变量进行有效的离策略元强化学习,ICML 2019。
- L Zintgraf 等人,-VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning,ICLR 2020。
- R Fakoor、P Chaudhari、S Soatto、AJ Smola - Meta-Q-Learning,ICLR 2020。