人工智能 - 带有提示或参考模型的强化学习 - 吾爱随笔录

在强化学习中，当我训练一个模型时，它会提出自己的一套解决方案。例如，如果我正在训练一个机器人走路，它会想出自己的步行步态，比如这个 Deep Mind 机器人已经学会了以奇异的步态行走。尽管动作看起来不像人类，但它肯定可以走路/跑步。

我想知道如何通过提供某种参考运动数据来训练模型？例如，如果我从一个行走的人那里收集运动数据，然后将其提供给训练，那么训练是否可以学习看起来与参考运动数据相似的步行运动？

在网上搜索我确实找到了一些表明这是可能的链接。例如，在一项研究中，研究人员做了我想做的事情，他们将人类捕获的运动数据输入到模拟中，并让它学习运动。

所以，我的问题是：我怎样才能给强化学习模型一些提示或参考数据，而不是只留下它自己？这到底是怎么做的？它甚至叫什么？我可以搜索哪些术语和关键字来了解更多信息？

提前谢谢了