在强化学习中,当我训练一个模型时,它会提出自己的一套解决方案。例如,如果我正在训练一个机器人走路,它会想出自己的步行步态,比如这个 Deep Mind 机器人已经学会了以奇异的步态行走。尽管动作看起来不像人类,但它肯定可以走路/跑步。
我想知道如何通过提供某种参考运动数据来训练模型?例如,如果我从一个行走的人那里收集运动数据,然后将其提供给训练,那么训练是否可以学习看起来与参考运动数据相似的步行运动?
在网上搜索我确实找到了一些表明这是可能的链接。例如,在一项研究中,研究人员做了我想做的事情,他们将人类捕获的运动数据输入到模拟中,并让它学习运动。
所以,我的问题是:我怎样才能给强化学习模型一些提示或参考数据,而不是只留下它自己?这到底是怎么做的?它甚至叫什么?我可以搜索哪些术语和关键字来了解更多信息?
提前谢谢了