带有提示或参考模型的强化学习

人工智能 机器学习 深度学习 强化学习 训练 参考请求
2021-10-29 20:07:05

在强化学习中,当我训练一个模型时,它会提出自己的一套解决方案。例如,如果我正在训练一个机器人走路,它会想出自己的步行步态,比如这个 Deep Mind 机器人已经学会了以奇异的步态行走。尽管动作看起来不像人类,但它肯定可以走路/跑步。

我想知道如何通过提供某种参考运动数据来训练模型?例如,如果我从一个行走的人那里收集运动数据,然后将其提供给训练,那么训练是否可以学习看起来与参考运动数据相似的步行运动?

在网上搜索我确实找到了一些表明这是可能的链接。例如,在一项研究中,研究人员做了我想做的事情,他们将人类捕获的运动数据输入到模拟中,并让它学习运动。

所以,我的问题是:我怎样才能给强化学习模型一些提示或参考数据,而不是只留下它自己?这到底是怎么做的?它甚至叫什么?我可以搜索哪些术语和关键字来了解更多信息?

提前谢谢了

1个回答

您可以查看 GAN(生成逆向网络)中使用的技术。这些网络通过有 2 个学习代理来工作。1 创建图像,1 学习人造图像和计算机生成图像的区别。这是有效的,因为这 2 个代理相互推动变得更好,并最终使生成器创建无法与现实生活中的图像区分开来的图像。

在您的情况下,您可以让代理尝试判断数据是人为还是计算机生成的。当其他智能体可以将其识别为计算机移动时,学习移动的智能体将获得负奖励。这样,移动者将学会像您的参考数据一样移动。

更新:

我刚刚发现这个视频和论文和你问的完全一样。他们没有使用类似 GAN 的结构,而是使用特定于任务的奖励和模仿奖励,这是基于他们拥有的参考运动数据。

https://www.youtube.com/watch?v=vppFvq2quQ0