强化学习环境中的元学习到底是什么意思?

人工智能 强化学习 定义 元学习
2021-11-01 00:10:51

我们可以使用 DDPG 来训练代理堆叠对象。堆叠对象可以被视为先抓取,然后是拾取和放置。在这种情况下,元强化学习如何适应?这是否意味着我可以将抓握、拾取和放置作为训练任务并推广到组装对象?

1个回答

元学习可能意味着很多事情,但其核心是在解决任务所需的通常优化之外进行第二层优化。

例如,在机器人的 RL 中,您可能有一个 SAC(Soft Actor Critic)代理来学习如何拾取和放置,首先初始化一个随机神经网络,然后学习哪些权重最小化与成功拾取相关的损失函数。鉴于这种架构,您可以修复一个元目标,例如在挑选时精确(基本目标)和快速(元目标)。或者最大限度地提高人类安全,最大限度地减少机器人磨损,等等。

现在你可以元学习最好的元参数来实现这个元目标。元参数的示例可以是网络初始化、损失函数的形状、网络架构等。

查看神经网络中的元学习:调查 https://arxiv.org/abs/2004.05439